基于中文分词技术的文本相似度检测研究

  • 发表时间:2021-08-27 02:00:42

基于中文分词技术的文本相似度检测研究

[摘要]对本科生的毕业问题进行类似性论文的检查很难,泄露很多等问题,使用自然语言处理和集合运算的方法,计算选择问题的类似度,在阈值29%的情况下得到平均类似度38%的结果。这种方法同样适用于选择不同专业问题在繁重的工作中调查,具有较好的实际应用价值。现在,本科生毕业问题存在的重大问题现象一般是用人工方式来进行类似性检查,根据记忆和文件的检索来区别重大问题。

不仅与文字上相似的问题没有关系,还缺少选择与主题相似的工作的比较部分。蒋勇青等分析了现有文献相似检查系统应用的有效性[1];刘锐等采用Lucene框架技术对学位论文的全文极性检索[2];张海腾等用两个文本向量的余弦值计算相似度,对电子工作的调查重作[3];张振国等用PLSA(Probabil)使用isticLatentSemanttic)。Analysis,概率潜在意义分析)方法从意义角度分析毕业论文题目的相似性。黄莉等使用最大通用序列算法处理毕业论文主题的相似性。

正文采用自然语言处理的中文分词技术[6],最后选择主题互相比较类似度。1研究方法中文分词算法主要有基于字典的算法和基于统计的算法以及结合前的两种算法[7]。

首先对所有的毕业问题利用jieba分词技术进行分词处理。大部分过程通过jieba分词技术,利用自定义的类似度比较函数,实现类似度测定的结果。Jieba分词是最常用的方法,这个技术包含着3种分词模式。对于未注册的词语采用HMM模式。您可以使用Viterbi算法对单词和词典进行自定义添加。具体的工作流程如下。(a)读取数据导入Excel毕业设计的选择文件,读取数据。

(b)用户词典的导入,专业性的词汇非常高,在分词前需要整理专业用语,作为用户词典来使用。(c)jieba分词在使用jieba分词之前使用。标准eba.load_导入用户词典的方法。

使用精确模式选择jieba分词。(d)废词是没有意义的单词,出现频率很高,不去掉的话会影响下一个工作的正确性。因此,必须删除两种单词。为了视觉上看到去除废词的效果,图2是使用词云的技术,比较除去废词前后的效果,图(b)的关键字比图(a)更专业,变得更突出。

2实验和结果分析2.1数据集本课题采用的数据集包含两个部分,第一部分数据是430个计算机类专业本科生的申报选择,从本科毕业论文管理系统导出,其主题是软件APP开发、管理系统开发、硬件包括各种方向,例如硬件设计、网络设计。每次选择Excel文件的一行,都有课题、呈报人、申报时间、指导老师、审查是否通过等字段。第二部分的数据通过来自知识网的检索方法,分别通过“网站and研究”和“网站and应用and研究”各检索,下载100篇文献名作为比较实验的数据集,分别为“知网数据1”和“知网数据2”这样命名。

2.2实验和分析对于“知网数据1”和“知网数据2”,利用本课题的算法分别计算其平均类似度34.8%、35.1%,验证本课题的算法有效。根据类似性检测操作的一般规定,类似度阈值为29%。为了比较清楚地示出

实验结果,图3使用100个选择问题来检查重量,横坐标是选择号,纵轴是类似度的比例,并且用散点图标记超过29%类似度的选择问题。类似度最高的是点(45,25),号码45和号码25两个选择问题的类似度接近70%,点(83,17)的类似度为60%。

在毕业设计的一部分和一些其他问题重叠的情况下,如图3所示,举两个例子进行说明。图3A示出了“基于JAVAWEB的英语单词学习网站”和其他3个选择项的类似性,与“基于JavaWeb的学习资源共享网站”的类似度最高。

图3(b)表示与“Android基础的水果销售应用”相似。“Android基础的鲜花销售应用程序”这个标题是最高的。本数据集中的430条毕业设计的选择问题,在类似度超过29%的情况下,平均38%,与知网的2个实验相比,如图4所示,本数据集和知网数据的类似度可以比较,在高的部分有多个原因,例如毕业问题的关键字很少,平均个数只有3.93个等。

3结语本课题采用自然语言处理技术,调查本科生的毕业设计主题,根据Z字分词技术,以网络数据库作为基准数据集来确保该算法的有效性的情况下,调查430条计算机类专业的本科生的毕业问题,确定阈当数值为29%时,获得平均相似度38%的实验结果。这种方法同样适用于选择其他专业问题在繁重的工作中调查,具有一定的实用价值。

推荐阅读,更多相关内容:

中国学术不端硕博研究生期刊论文查重检测

黄山学院本科毕业论文查重检测的有关规定 黄山学院本科毕业论文字数

知网论文检测查重有论文透露的风险吗

CNKI软件对毕业论文布置格式要求

专本硕知网查重平台

论文检测系统如何识别引用?

暨大论文查重率多少合格-暨大论文查重网站

论文修改后为什么查重率反而高了?

论文检测是咋样算法

知网查重免费论文查重 引文献查重吗知网查重 引文查重

知网检测报告怎么看重复率 中国知网论文检测报告怎么看

论文写作技巧与方法 论文写作与投稿技巧第四章答案

知网查重需要注意什么? 在知网查重需要注意什么

知网学术不端网值得信赖吗?论文查重到底是怎么查的

2020免费的本科论文检测系统安全? 大雅论文检测系统安全吗

知网论文检测有哪些技巧? 中国知网论文查重时图片是否参与检测?

从知网论文查重到顺利毕业的经历[经验分享]

cnki查重检测查表格吗

论文检测系统表格文章雷同如何做

职称论文查重必选知网检测 职称论文怎么查重复率知网免费

硕士知网查重的规则有哪些? 知网硕士专用卡可以查重吗

师大中国知网免费入口中国知网免费入口工具

知网查重入口检测优势有一些个

如何提高论文的原创度? 论文原创度多少可以发表

中国学术不端网查重检测查不查图表