Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 教育论文 > 正文

基于改进TF-IDF分词算法的作业预处理策略研究论文

发布时间:2021-08-11 17:25:43 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com):

摘要:随着无纸化办公的不断推广,方便存档与审阅,面向本科实验实践性教学的实验报告、课堂练习、实习等任务的完成通常以电子版的形式提交给指导老师。然而,电子版的作业易抄袭、易修改、知识产权难以保护等。

为了更好的获悉学生的实际完成情况,本论文提出了一种基于 TF-IDF 分词算法的自适应作业预处理方法,可以根据课堂内容设置不同的相似度完成对电子版作业的抄袭情况分析。最后,以重庆邮电大学软件工程专业的《程序设计语言原理》作业为分析对象,验证了本论文中基于 TF-IDF 分词算法的自适应作业预处理系统的有效性和合理性。实验结果表明,柔性阈值策略的应用可以有效的应用于中英文混合的实验报告分析中。

关键词:作业预处理;相似度计算;软件工程

本文引用格式:桑春艳 , 刘津宇 , 肖云鹏 , 等 . 基于改进 TF-IDF 分词算法的作业预处理策略研究 [J]. 教育现代化 ,2020,7(97):105-108.

Research on Job Preprocessing Strategy based on Improved TF-IDF Word Segmentation Algorithm
SANG Chunyan, LIU Jinyu, XIAO Yunpeng, LI Tun(School of Software Engineering, Chongqing University of Posts and Telecommunications, Chongqing)

Abstract: With the continuous promotion of paperless office, in order to facilitate archiving and review, the experimental report, classroom practice, practice and other tasks for undergraduate experimental practical teaching are usually submitted to     the instructor in the form of electronic version. However, the electronic version of the work is easy to copy,  easy to modify,     and difficult to protect intellectual property rights.

In order to better understand the actual completion of students, this paper proposes an adaptive pre-processing method based on TF-IDF word segmentation algorithm, which can set different similarity according to the classroom content to  complete the  plagiarism analysis of electronic homework.

Finally, taking the "principles of programming language" of software engineering major of Chongqing University of Posts and Telecommunications as the analysis object, the effectiveness and rationality of the adaptive job preprocessing system based on TF-IDF word segmentation algorithm is verified. The experimental results show that the application of  flexible threshold strategy can be  effectively applied  to the analysis of Chinese and English mixed experimental reports.

Key words: job preprocessing; similarity calculation; software engineering

一 引言

为提高面向“三阶八环”的软件工程实践性教学的质量 [1],客观分析培养过程中学生所提交的实验报告,实训、实习总结等电子文档是获悉学生学习能力和学习习惯,反馈学习情况,提高学习成绩的重要依据 [2,3]。随着教育信息化的推进,学习方式和教学模式的变革使作业提交的形式发生了变化, 借助教学管理平台或通讯工具提交电子作业已成为普遍现象。这种作业提交方式减少了教学工作量,提高了教学过程的效率,但也客观上使作业抄袭更难发现,抄袭行为更容易发生。

作业抄袭的发生既有学生主观、客观上的原因, 也有老师以及学校的因素 [4]。其应对措施一方面是源头上的防范,如明确抄袭的概念界定、减少作业量并增强作业的趣味性、设置抄袭的障碍、增加抄袭的难度、明确惩罚措施等 [5];另一方面就是抄袭结果的检测,这项工作既增强了防范措施的针对性, 又是通过结果警示来减少作业抄袭的发生。实际情况也表明,对被发现抄袭的学生进行沟通引导后很少反复重犯,而忽视抄袭检测往往造成“可抄袭” 的心理暗示,助长抄袭现象的发生。

作业抄袭检测很难通过人工的方式进行。实际上,作业抄袭本质上是利用作业内容相似性,抄袭形式上有显性抄袭和隐性抄袭等多种形式 [6],人工抄袭检测往往需要增加大量的工作。此外,模仿、抄袭的概念界限比较模糊,教师在界定作业抄袭时很难做出明确判定。作业抄袭检测系统,在技术上利用相似性原理进行检测,契合作业抄袭的本质; 在操作方式上又符合信息化教学条件下的作业提交方式和习惯。有对比研究表明,作业抄袭检测系统在抄袭检出效果方面上要优于人工抄袭判定 [7]。

最早的是学者张文典 [8] 根据程序属性相似性, 利用 PASCAL 语言开发的程序类作业抄袭判定系统。当前,作业抄袭检测系统已有很多研究和开发案例。最早的是程序类作业。有开放检测系统主要集中在论文检测方面,如 Bejarano 等人 [9] 通过改进贪婪字符串平铺算法,提出了一种在学术环境中检测编程源代码相似性的方法并开发了 CODESIGHT 工具, 为计算机程序设计课程中作业抄袭检测提供支持。在实际的教学工作中,作业抄袭检测系统的设计和使用面临以下挑战。

(1)方便、适用。作业批改以及抄袭检测是教学的日常工作,且作业内容与要求有很大的灵活性,应用专门的反抄袭软件或系统工作量大,且适用性差。(2)作业批改和作业抄袭都是基于相似度的检测来实施,这无疑给作业抄袭检测增加了难度。(3)作业批改和抄袭检测应该同时进行。作业包含多种类型。(4)同一为老师面临多种课程的教学任务,作业批改与抄袭检测需要适应多种课程和多种类型的作业。

本论文通过分析作者多年来所授课程的实际情况,比如,同一学年同一门课程的不同班级由同一个老师授课,同一学年同一门课程的不同班级由不同老师授课。为能够有效分析学生所提交内容的抄袭情况,本论文所提出的作业预处理策略可以选择某几次作业同时分析,进而发现作业模板中固有内容所占的比重。面向软件工程专业的学生的实践性作业内容不仅包括描述性文档,还包括源代码等内容,所以, 在查重过程中采用柔性阈值策略,根据作业的内容设置不同的相似度阈值。最后,以重庆邮电大学软件工程专业的《程序设计语言原理》实验报告为对象, 验证了本论文中所提出的方法的有效性和可行性。

二 相关工作

(一) 问题的提出

智能预处理学生作业管理系统为了方便学生老师在课堂之后布置学生作业,让老师了解学生的知识掌握情况及学生自查知识的学习情况。老师能够在平台管理班级学生,添加习题及发布作业并查重等,学生可以在平台上提交作业及查看已批改作业。同时在老师端能够预先列出某几次学生提交的作业之间的相似度让老师能够预先了解学生之中的抄袭情况,帮助老师快捷管理学生的作业,提供一个简洁快速的作业处理系统。

互联网作业管理平台在国内发展比较快速,与其相配套的签到系统等也有快速发展。单看作业管理平台系统,国内作业管理平台中各项传统作业管理需求多有完善,但是这仅仅是把传统的作业放到了互联网中,而使用互联网及计算机更多高效功能的实现却是很少,例如使用算法实现查重功能的作业管理平台少之又少。

进入大学以来,学生作业很多停留在初高中的纸质作业提交上,但是大学不同于以前的是学生有了更多的自由时间与课程的多样性,提交也存在多地,老师的管理相对于初高中也新增了一些难度, 一个好的,简单的学生作业管理系统能够帮助老师便捷的,清晰地管理学生作业,在此基础上如果能够有一些帮助老师对学生所提交的作业有一定处理功能的软件,就能在众多的平台系统中脱颖而出。

查重是现阶段作业最基础的,学生中抄袭作业的现象存在越发严重,作业上存在大量的重复,通过作业管理平台提交作业过程中能够帮助老师提前了解学生作业中的重复情况势在必行。

在国外大学生作业管理中,也存在很多网络作业管理系统,但很多高校仅仅存在于简单的 FTP[2] 传送作业给老师,很少有完整的作业管理平台来管理学生及学生作业,此类老师单方面的管理存在很多局限性,作业的收取跟传统方式只是在纸质上有所改进,方便性有待提高。

(二) 基于改进 TF-IDF 分词的相似度算法

TF-IDF 是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF 加权的各种形式常被搜索引擎应用, 作为文件与用户查询之间相关程度的度量或评级。

使用 TF-IDF 分词算法实现对两篇文章的分词, 例如 String1=“我爱吃龙眼”,String2=“我爱吃桂圆”,使用分词算法后,词频列表中会存在 word1=[“我”, “爱”,“吃”“龙眼”],word2=[“我”,“爱”,“吃”, “桂圆”],各个词的词频都为 1,前三个字词全部一样,而在“龙眼”与“桂圆”中,根据词义两次完全一样, 则这两个信息相似度应很高,本次系统才用的是开 源词包 HanLP-1.7.2 实现分词及词义向量坐标的界定 [10]。在向量计算中,根据最高词频集合前 20(本系统设置为 20 个最高词频,如语句太短词数不够可做调整)产生超平面坐标,如前例坐标为:
String1=[1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
String2=[1,1,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
数学余弦公式得出夹角的余弦,即相似度的余弦求值公式如公式 (1):

\

中文部分的分词交由 HanLP 进行分词后,统计对比的两个文章词频,再交由计算余弦,通过余弦确定一次对比中学生间的相似度,当这仅仅是中文部分的余弦相似度,不完全是最后的完全两篇文章的相似度,需要通过一定的加权值得出最后的相似度。由于 HanLP 开源词包中只针对中文词语进行分词 [11],而现在绝大多数作业当中存在甚至全篇英语单词,所以完全使用 TF-IDF 分词对中文部分进行分词计算相似度势必会忽略英语单词部分的相似度。

加入英语权重后得出最终相似度结果的算法更加重要,在两篇信息文章中分别计算中英文占比,在英文当中使用字符串回溯比较法进行单个英文字符串对比得出英文部分相似度,权重中英文在两篇文章中的占比得出最后相似度。由于在实践中一个中文字符约等于 3.5 个英文字符,则在计算中英文占比时进行一定的权重比计算得出综合占比。
三 实验验证在一次老师发作业流程中,老师需要先在习题管理中完成习题的录入,习题类型分为选择题,填空题,简单题。习题属性中包括所在科目及所在章节, 录入成功会在习题库中保留录入老师,能够被其他老师用户添加进作业但不能修改。

学生作业提交后,后台数据库中按班级存储学生作业,在批改学生作业之前可以通过查重模块对某几个班级的作业进行相似度对比,因为某些作业可能存在作业框架,使得每份作业之间存在一定的相似度,所以老师可以设置重复率的阈值,高于阈值相似度的对应学生及对应相似度将会记录在数据库中。老师用户在打开批改作业界面时能够预览最高相似度,进入详细页面能够查看高于阈值的相似度与其对应的学生姓名。文本相似度的算法在本项目中的应用主要是针对同种类作业在不同班级布置时,老师可以选择某几次作业中同时进行两两比较, 但由于其中的习题本身原因,学生答案之间不可少的存在一些相似度,阈值的设置主要为了防止过多的相似样本被记录,所以阈值的设置需要根据作业的本身所决定。

本论文选取重庆邮电大学软件工程专业 47 个学生三次《程序设计语言原理》实验报告为样本进行测试,每次作业的内容均包括文字描述和源程序代码。本次系统实现时进行了三次数据测试,其中讲阈值设置为 0 时及所有有相似的全部输出,部分结果如图 1 所示。

\

由上可以看出在全部相似度记录的情况下,由于作业本身原因,必不可少的存在一定的相似度, 则记录项目过多。当把相似度阈值设置为 0.5 时,算法记录结果如图 2 所示。


\
 


相似度的提升使得存入数据的相似度结果变少了,高重复率的情况显而易见,再把相似度提升到 0.8时,系统得出的结果如图 3 所示。


\

综上可以看出,阈值的需要根据具体作业可能会存在的必不可少的相似度考虑而设定,过低或者过高都可能使得相似度数据的存储过多或者过少,使得预处理功能达不到能够老师预览学生作业中存在抄袭情况的要求。

四 总结

本论文通过分析实验实训实习过程中学生所提交作业的特点,提出了基于 TF-IDF 分词算法的自适应作业预处理方法,可以根据课堂内容设置不同的相似度完成对电子版作业的抄袭情况分析。并以重庆邮电大学软件工程专业的《程序设计语言原理》作业为分析对象,验证了本论文中基于 TF-IDF 分词算法的自适应作业预处理系统的有效性和合理性。在未来的工作中,可以进一步探索的工作如下:

(1)在老师布置作业的同时设置重复率阈值,当同学提交作业时会自动与数据中已经提交了作业的同学进行比对,对超过老师设置阈值的作业,系统会发出提醒, 但可以继续提交到数据库中,在老师批改作业时提醒此同学重复率,省去了老师手动选择的步骤,并且能够在同学提交之初就能提示同学存在的抄袭情况。

(2)老师习题录入提交的标准答案加入相似度对比, 同学提交作业后能够自动与习题的标准答案进行对比,根据相似度区间得出得分情况,得分区间由老师设定。

(3)文本相似度的识别算法在某些极端情况下可能会存在错误,但由于算法本身有待完善及中文词包的有待扩充,算法的准确性可以有更高的提高。

参考文献

[1]文俊浩 , 徐玲 , 熊庆宇 , 等 . 渐进性阶梯式工程实践教学体系的构造 [J]. 高等工程教育研究 ,2014,(1):159-62+80.
[2]余燕平 , 邹园萍 . 高校本科生作业完成现状的实证研究 [J]. 大学教育 ,2017,(7):186-90.
[3]GUVEN U, AKCAY A O. Trends of Homework in Mathematics: Comparative Research Based on TIMSS Study [J]. Int J Instr,2019,12(1):1367-82.
[4]郑冬梅 , 李煜林 . 基于论文检测角度的本科生毕业论文抄袭情况分析 [J]. 教育现代化 ,2018,5(30):351-2.
[5]陈彤兵 . 程序设计课程中作业抄袭问题的防范 [J]. 计算机教育 ,2017(2):4-6.
[6]苗怀明 . 论大学本科教学中的学术规范教育 -- 以中国古代文学课程的教学为例 [J]. 中国大学教学 ,2013,(11):56-7.
[7]SEIFRIED E, LENHARD W, SPINATH B. Plagiarism Detection: A Comparison of Teaching Assistants and a Software Tool in Identifying Cheating in a Psychology Course [J]. Psychology Learning & Teaching,2015,14(3):236-49.
[8]张文典 , 任冬伟 . 程序抄袭判定系统 [J]. 小型微型计算机系统 ,1988(10):34-9.
[9]BEJARANO A M, GARC A L E, ZUREK E E. Detection of source code similitude in academic environments [J]. Computer Applications in Engineering Education,2015,23(1):13-22.
[10]张贝贝 .HanLP: 一触即发叩响自主创新之门 [J]. 软件和集成电路 ,2019(Z1):64-8.
[11]邹佳伦 , 文汉云 , 王同喜 . 基于统计的中文分词算法研究 [J]. 电脑知识与技术 ,2019,15(4):149-50+53.

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!


文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jiaoyulunwen/32273.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml