论文相似性检测系统

2024-08-28

论文相似性检测系统(共10篇)

论文相似性检测系统 篇1

学位论文相似性检测系统主要为检测研究生学位论文中出现的不端行为提供辅助工具, 是在技术上反抄袭、反剽窃的有效手段之一[1]。全国各大高校都开始对研究生学位论文进行相似性检测, 南京邮电大学从2009年开始对申请学位的博士和硕士研究生学位论文进行检测, 以及时发现和处理学位论文抄袭等不良行为。通过两年的实施, 每年都有10%的学生未达到要求需要重新修改论文, 对研究生学位论文质量起到了很好的把控作用[2]。目前, 国内学位论文相似性检测系统主要有四个系统:中国知网CNKI的学术不端行为检测系统、万方数据的论文相似性检测系统、维普通达论文检测系统和超星数据库大雅相似性分析系统。中国知网CNKI的学术不端行为检测系统是目前最普遍使用的系统, 系统目前的检测范围涵盖中国学术期刊网络出版总库、中国博士论文网络出版总库、中国优秀硕士论文网络出版总库、中国报纸全文数据库、中国专利全文数据库 (知网版) 、中国科技成果数据库 (知网版) 、中国年鉴网络出版总库、中国工具书数据库、中国标准数据库 (知网版) 。正陆续引进英文数据库、网络数据库等资源[3]。万方数据的论文相似性检测系统也是高校目前普遍使用的系统, 仅次于CNKI, 系统的检测范围涵盖中国学术期刊数据库 (CSPD) 、中国学位论文全文数据库 (CDDB) //中国学术会议论文数据库 (CCPD) 和中国学术网页数据库 (CSWD) 。其学位论文数据库的涵盖量全是最大的优势[4]。维普通达论文检测系统是继中国知网和万方后, 又一个拥有海量期刊文献系统支持的论文防抄袭检测系统, 其优点是用户自己掌控检测流程, 自己检测, 自己看结果, 不想留痕迹自己可以删除论文, 安全性比较好。检测结果报告较其他网站更为人性化, 方便修改。维普通达收录的文本数据库包含:拥有文献全文3, 200余万篇, 是国内最大最完善的中文科技期刊全文数据库;互联网数据库 (监控Google收录的数十亿个页面) ;论文库 (收录各院校及科研院所的200多万硕士、博士论文, 每周更新, 满足跨学科比对需求) 。超星数据库大雅相似性分析系统是超星公司推出的相似性检测系统, 其数据库优势是中文图书和报纸全文数据库。

一、系统功能比较

对于常见的文件格式.doc/.pdf/.txt, 四个系统都支持上传, 知网和维普支持.zip和.rar压缩包格式文件上传。在操作方式上, 四个系统都支持单篇检测和批量检测功能, 对于批量检测功能, 知网:上传论文一步;万方:创建任务、添加论文和开始检测三步;维普:提交论文、确认检测文档和开始检测三步;大雅:任务名、选择文件和上传三步。知网系统的操作方式最简单直接, 而维普系统的操作是最慢的。

二、指标体系比较

知网:复制比 (总复制比、去除引用文献检测结果复制比、去除本人文献检测结果复制比) 、总检测指标 (重合字数、总字数、总段落数、疑似段落数、前部重合字数、后部重合字数) 、子检测指标 (重合字数、小段落数、大段落数、最大段长、平均段长、前部重合度、后部重合度) 、相似片段分布;维普:相似比 (总相似比、自写率、复写率、引用率) , 相似片断 (包括:期刊库片断、硕博库片断、互联网片断、高校特色片断、自建库片断) , 字数 (包括:总字数、重复字数、总章节数、疑似章节数) ;万方:相似比 (总相似比、参考文献相似比、排除参考文献相似比) , 相似片段分布;大雅:相似度 (总相似度、过滤参考文献后相似度) 、重复字数和过滤参考文献后的重复字数, 相似片段分布。在实际操作中, 高校论文管理机构最关注的指标是“去除本人文献检测结果复制比”和“相似片段分布”, 其中“去除本人文献检测结果复制比”只有知网系统有, 而维普系统缺乏相似片段分布图。因此, 从指标体系看, 知网的指标体系最详细, 指标维度最多, 也最符合实际需求。

三、多篇论文检测结果比较

我们从2015年毕业的研究生学位论文中挑选出20篇学位论文, 分别在四个系统中进行了检测, 20篇学位论文的检测平均复制比, 知网系统18.94%, 维普系统18.8%, 万方系统4.64%, 大雅系统2.91%。从比较结果可以看出, 知网和维普的检测复制比较高、性能较优, 而万方和大雅的检测复制比都比较低、性能较差。其中检测性能较好的知网系统和维普系统, 两者结果相似的论文数是6个占2.31%, 知网比维普复制比多的论文数量和维普比知网复制比多的论文数量相同。可见, 这两个系统的检测结果各有侧重, 性能相当。

四、单篇论文检测结果比较

我们选取了一篇项目管理专业的研究生学位论文《雇佣关系模式与组织认同、工作绩效关系研究》 (以下简称”学位论文A”) 在四个系统上分别检测, 同时下载检测报告进行分析比较。从论文检测速度上看, 大雅速度最快只用5s时间, 维普速度最慢使用200s时间, 如果大批量论文检测以维普系统的检测速度肯定无法完成。从论文检测结果上看, 同一篇论文四个系统的复制比, 知网和维普的结果接近检测复制比高, 性能优;万方和大雅的检测复制比低, 性能差。我们对检测报告进行了详细分析, 发现学位论文A跟一篇公开收录的学位论文B有较大的相似性, 但就这两篇学位论文的对比结果, 对四个系统的检测报告进行分析, 得出“跟最相似文献的重复率对比”的指标, 从跟最相似文献的重复率对比上看, 结果从高到低分别是:知网、万方、大雅、维普, 知网和万方的结果较接近, 性能较优。从章节分析能力看, 同样排版的学位论文, 只有维普系统正确区分出论文章节, 知网和万方按照自己标准分段, 而大雅系统没有进行任何分段, 章节分析能力上维普系统最优。从报告长度和内容上看, 知网和维普系统的检测报告都多达六十多页, 比较详细;但万方和大雅只有十页左右, 太简单。

五、结语

本文对国内主流的四个学位论文相似性检测系统———知网系统、万方系统、维普系统、大雅系统进行了分析与比较, 从各方面比较结果看, 知网系统的优势是期刊和论文数据库非常全面、检测结果比较准确, 缺点是章节分析能力不佳;万方系统的优势是研究生论文数据库全, 缺点是期刊数据库太少、检测结果不准;维普系统的优势是章节分析能力好, 缺点是检测技术速度太慢, 相似性统计数据不准;大雅系统的优势是电子图书数据库全, 缺点是论文和期刊数据库太少、检测结果不准。综合比较而言, 每个系统都有待改进的地方, 但知网系统的性能最优、综合性能最佳。

参考文献

[1]张旻浩, 高国龙, 钱俊龙.国内外学术不端文献检测系统平台的比较研究[J].中国科技期刊研究, 2011, 4:514~521

[2]孔媛媛, 王昆, 徐小龙.高校研究生学术道德和学术规范工作的制度建设和措施[J].教育教学论坛, 2014, 50:271~272

[3]李志明.知网、万方、维普论文相似性检测系统比较研究[J].大学图书情报学刊, 2015, 1:61~64

[4]林豪慧, 陈如好.知网、维普、万方的同质化和差异化评析[J].图书馆学研究, 2009, 9:25~27

论文相似性检测系统 篇2

各研究生培养单位及2012届毕业研究生:

自2012年起,我校所有研究生学位论文均须通过相似性检测后方可申请答辩。现将今年相关工作通知如下:

1.提交检测论文基本要求:

论文完整,符合我校学位论文撰写标准,并经导师批准同意申请学位论文答辩。

2.采用ftp方式提交电子版论文,请使用cuteftp等ftp软件进行上传。

论文递交ftp地址:202.119.236.104用户名:xwlw密码:xwlw2012

3.提交论文格式:

电子文档请采用 xp/2003或2007版的word格式,论文命名:学号_姓名,扩展名:doc或docx。

例如:“Y001090xxx_张三.doc”“Y001090xxx_张三.docx”

4.欲于2012年4月申请学位的研究生,请于2012年2月22日上午10点前通过上述方式和要求递交论文电子版,过时不再接收。第二批提交论文的时间将于2012年4月校学位委员会会议后通知。

5.2012年硕士学位论文盲审名单于2012年2月24日下班前公布,盲审论文提交截至时间为2012年2月27日下午3点。

6.请2012届研究生于2012年2月21日前登录研究生管理信息系统,完善“基本信息”和“学位信息”,填写学位论文题目等相关信息,以上信息关系到学位论文检测的按时进行,请务必于规定时间在网上提交。以后若需要修改还可以点击“收回”。

另外,《南京邮电大学论文独创性声明和使用授权声明》进行了更新,请从“研院/学位工作/学位论文撰写与评审”下载。《学位论文封面(分学术性和专业学位)》请从“研院/学位工作/学位论文撰写与评审/硕士”下载。

研究生院(筹)

研究生学位与培养办公室

论文相似性检测系统 篇3

关键词:FTP;教学;代码;相似度

中图分类号:TP393.01 文献标识码:A 文章编号:1007-9599 (2012) 09-0000-02

一、前言

随着信息技术的快速发展,各大高校纷纷设置程序语言或数据库管理等信息化课程。个别学生利用他人资源,通过简单的复制粘贴来完成作业。为了遏制这种抄袭现象,教师需要花费大量的时间来批阅作业,在一定程度上会影响教学进度。有的抄袭文本对代码进行了加注释和换行来欲盖弥彰,可能会影响批判的准确性。同时,教师在阅读代码时往往先要将学生的代码下载到本地后再打开查看,如果能在线进行阅读就能节省一部分的时间和精力。

本文采用了最长公共子序列算法。該算法是对于文本匹配的动态规划[1],目的是找出两个序列中最长公共子序列,在媒体流的相似比较、图形样式的相似处理、生物基因研究等方面应用广泛。

在网络时代中,相比于利用移动存储设备等交互方式而言,在网上进行信息的传输更为频繁。FTP(File Transfer Protocol),也就是文件传输协议,是在TCP/IP网络和INTERNET上最早使用的协议之一。目前FTP服务相对成熟,将其应用在高校的信息化知识教育中,有利于资源共享,效率提高,管理方便[2]。

二、算法简介

(一)定义

代码在检测的过程中可以被提取为连续的字符串,即字符序列。

假设有序列X=x1,x2,…,xn,Y=y1,y2,…,yn。

如果有序列Z=z1,z2,…,zn以及单调递增的整数序列m1

(二)计算

令X含有的元素数量为L(X),L(T(X,Y))记为L(X,Y),那么

此时,数组L[X,Y]中最大的值便是X和Y的最长公共子序列的长度,依据该数组回溯,便可找出最长公共子序列。

假设X=a,b,c,d,a,c,b,Y=b,d,c,a,b,那么序列C1=b,c,d是X和Y的公共子序列,但不是最长公共子序列,而序列C2=b,c,a,b和C3=b,d,c,b都是公共子序列,并且均为最长公共子序列,长度为4。

算法的流程如图1所示,记m=L(X),n=L(Y),L(i,j)为二维数组(0≤i≤m,0≤j≤n)

图1 流程图

(三)结果

最后,两个序列的相似度可以用最长公共子序列的长度在整个序列中所占的百分比表示,如公式1-1[3]:

公式1-1

其中,Len(X,Y)就是序列X和序列Y的最长公共子序列的长度。

三、实现方法

(一)创建WEB项目

本文的FTP应用是基于Java语言开发的Web应用,将充分利用Java程序“一次编写,到处运行”(Write once,run anywhere)[4]的优点,同时使用了最新的基于MVC的Web应用开发框架Struts2[5]。

(二)添加框架和相关开发包

导入使用Struts2所必须的类库,以及访问FTP所需的Jar文件(commons-net)。

(三)设计交互页面

(四)编写控制层

类名功能描述

CompareAction.java调用算法以检测代码相似度

LoginAction.java登录并显示资源列表

(五)实现业务逻辑

类名功能描述

Comparer.java算法实现

MyFtpClient.javaFTP登录和资源访问

TextReader.java代码获取

四、系统实现

(一)开发环境

本系统在Windows环境下开发,开发工具为Eclipse3.6和Tomcat6.0,JDK版本为J2SE 6.0。

(二)功能实现

1.进入检测系统,使用已有账户访问FTP服务;

2.读取FTP资源列表,选择目录;

3.选择代码文件进行相似度检测;

论文相似性检测系统 篇4

学术论文相似性辨别问题理论上可以转化为信息查询问题,输入为一篇学术论文,输出是若干篇按相关度排序的相关学术论文。半个多世纪以来,人们提出了许多种信息检索的算法模型,其中经典模型有:布尔模型、向量空间模型、概率模型。其中向量空间模型是Salton于70年代初期提出[1,2],并成功应用于SMART系统[3]。该模型用特征项进行文档表示,用向量空间模型进行特征表示,用TFIDF算法进行特征项赋权,用倒排文档进行索引,用夹角余弦进行距离度量,其计算简单并且有效,因此得到了广泛的应用。

本文对传统向量空间模型进行了分析改进,并用改进的模型实现学术论文相似性辨别系统。理论分析和实验结果表明,应用该法实现的论文相似性辨别系统简单易用,可供学术界和一些相关机构用来进行学术论文抄袭排查,有效提高工作效率。

1 向量空间模型及其改进

1.1 向量空间模型

在本系统的设计中,主要应用向量空间模型将一篇论文看作由相互独立的词条组(t1,t2,…,tn)(n是系统中标引词的数目)构成,对于每一词条ti,都根据其在论文中的重要程度赋以一定权值wi,将(t1,t2,…,tn)看成一个N维坐标系中的坐标轴,论文dj的向量dj=(w1,j,w2,j,…,wn,j)为对应的坐标值,从而转化为一个N维向量空间,论文映射成为空间中的一个点,由此将学术论文相似性问题转化为向量空间中两矢量夹角计算问题。

为便于描述问题,现给出模型中有关概念的定义:

定义1论文:本文指一篇完整的学术论文,记为d,并将所要进行辨别确认的学术论文称为目标论文。

定义2特征项:也称为索引项,是指出现在学术论文d中且能够代表该学术论文性质的基本语言单位,记为t。

定义3.特征项权值wik:表示特征项tk对学术论文di的重要程度。其计算方法普遍采用TFIDF公式,[4]:

其中,tfik表示特征项tk在学术论文di中出现的频率,N代表学术论文集合中的学术论文数量,nk代表在学术论文集合中出现特征项tk的学术论文数目。

定义4.学术论文向量:设学术论文集合中共有m个不同的特征项t1,t2,…,tm,分别计算学术论文di(i=1,…,N)的特征项t1,t2,…,tm的特征项权值,由这些特征项权值所构成的向量(wi1,wi2,…,wim)称为学术论文di的向量。由于特征项t1,t2,…,tm互不相同,我们可以将学术论文向量看作是m维欧氏空间的向量。这样,学术论文之间的相似程度通过向量的形式转化为向量之间的数学计算模式,使得在进行学术论文相似性计算过程比较简单、快速。

定义5相似度:指目标论文与学术论文库中论文之间的相似程度。学术论文di,dj相似度定义为向量之间的夹角余弦[5]:

1.2 向量空间模型分析及其改进

可以看出,在用向量空间模型进行学术论文相似性辨别时,存在两个基本问题:即特征项的选择和特征项的权重计算,其中在特征项确定的情况下,特征项权重计算对检索系统的精度和召回率具有决定性的影响。如果应用传统的向量空间模型来进行系统设计,那我们将会采用TFIDF方法来计算特征项的权重。TFIDF是由Salton在1988年提出的,特征项的权重是TF和IDF的乘积,其中词频TF为特征项在该论文中出现的次数,而逆论文频数IDF表示该特征项在论文集合中的分布情况,其计算见公式(1)。

TFIDF方法初看上去似乎考虑得很周到,它的指导思想是建立在这样一条基本假设上:在一篇学术论文中出现次数很多的特征项,在这篇论文中具有较高的重要性,应该赋予较高的权重,另外还要考虑特征项区别不同论文的能力,认为一个特征项出现的论文频数越小,它区别不同论文的能力就越大,所以引入了逆论文频度IDF的概念,将TF和IDF的乘积作为特征项的权重。与其它的特征项权重计算方法相比,TFIDF方法对特征项在论文集合中的分布情况有所考虑,使向量空间模型的论文表示准确率得到了很大的提高。但传统的TFIDF方法对所有的特征项“一视同仁”,没有考虑到出现在论文不同位置的特征项对论文的贡献程度不同,比如出现在标题中的特征项就比出现在正文中的特征项更能代表论文的内容,所以在确定特征项的权重时仍然存在着缺陷。

由此,为有效提高论文相似性辨别系统的精度,本文将传统的向量空间模型中赋权公式进行了改进,改进公式引入特征项在学术论文中出现的位置因素,也即在统计每个区域的特征项频率得到tf后,要乘以一个反映其重要程度的比例系数来加以修正和调整。考虑到学术论文的格式比较统一,我们将一篇完整的学术论文分为四个区域:标题区域、关键词区域、摘要区域和正文区域。

则特征项tk在学术论文di中的出现频率为:

其中:tfikj为第j个区域的频率(j为1、2、3、4时分别对应标题区域、关键词区域、摘要区域和正文区域),a>b>c>d>=1为比例系数。

由此,可得到如下的改进权重计算公式

当j=(1,2,3,4)时,τ=(a,b,c,d)。

2 构建学术论文相似性辨别系统

2.1 算法描述

基于向量空间模型的学术论文相似性辨别系统首先要求构建一学术论文库,形成一定规模的学术论文信息资源,在实际实现中可将各个全文数据库进行整合(如国内三大全文数据库:万方、同方,维普),尽量做到学术信息资源大而全。在进行学术论文抄袭排查中,将目标论文进行处理,在整个论文信息资源库中进行比较,考虑到此系统要求高精度,可设置较大的阀值进行检索结果输出(实验验证,阀值设置为0.85较为合适),然后对输出的结果再进行人工判断。

其算法描述如下:

1)构造特征项库。输入或提取学术论文集合中的特征项,并建立特征项库;

2)建立学术论文信息库。将学术论文内容录入数据库,建立学术论文信息库;

3)构造学术论文向量信息库。对每篇学术论文信息依据式(4),计算每一个特征项的权值,并构建相应的学术论文向量;

4)目标学术论文向量化。将要进行相似性比较的目标学术论文根据特征项库,转化为目标学术论文向量;

5)相似度计算。利用公式(2)将目标学术论文向量与库中每一个学术论文向量进行相似度计算;

6)排序输出结果。按照计算出来的相似度大小排序输出查询结果;

7)将所输出的结果人工进行相似性判断(可只考虑前20个)。

2.2 系统架构

系统的架构可用图1来表示。

其中学术论文库存储所有的学术论文,利用术语自动更新技术不断更新系统特征项库。学术论文向量信息库中存储的是经过特征项抽取、权值计算的N维空间中的论文向量。在查询端提交论文后,先将目标论文根据特征项库转换为向量形式,然后与库中向量一一计算,排序输出大于所设定阀值的结果。

2.3 系统运行结果

我们将测试集分为学术论文集和查询两部分。在系统实验中,我们从CNKI中国学术期刊全文库(由于该库基本涵盖了国内出版的所有期刊)中获取有关计算机方面的学术论文1000篇做为学术论文集,采用计算机词典中部分常用词组(3000个)建立特征项库,在PII500,64MB内存的机器上实现。在实验过程中,首先将此1000篇学术论文和所要进行比较的目标学术论文根据所建立的特征项库用向量表示,并计算各个特征项的权值。其次在此3000维向量空间中将目标学术论文与其它学术论文进行相似性计算,排序输出结果。最后人工对输出结果的前20个进行比较判断,确定学术论文的相似程度。实验结果表明,系统的精度在80%到90%之间,系统的召回率在90%以上。通过该方法我们可以方便、快捷的进行学术论文相似性的比较,提高工作人员的效率,有效判断学术论文的独创性。

3 结论

为有效根治学术腐败,营造良好的学术生态环境,本文将信息检索领域中传统的向量空间模型进行了改进,并用改进的模型实现了一基于SMART系统上的论文相似性辨别系统。

理论分析和实验结果表明,该系统具有一定的实用价值,可供学术界和一些相关机构用来进行学术论文抄袭排查、维护知识产权、共同捍卫学术的神圣与尊严。此外,还可应用该系统进行毕业论文、专利和新闻等的相似性辨别。

参考文献

[1]Salton G,Lesk M E.Computer evaluation of indexing and text processing[J].Journal of the ACM,1968,15(1):8-36.

[2]Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing[C].Prentice Hall Inc.,Englewood Cliffs,NJ,1971.

[3]Buckley C.Implementation of the SMART retrieval system.Technical Report[D].Cornell University,1998:85-86.

[4]Salton G,Buckley B.Term-weighting approaches in automatic text retrieval[C].Information Processsing and Management,1988,24(5):513-523.

论文相似性检测系统 篇5

一、相似航班号的分类

在管制指挥过程中,我们可以根据航班号的发音和拼写以及工作中遇到的其他情况大致将相似航班分类如下:

1音似形不似。如CF55422/CSH 9366。由于陆空通话存在一定程度的失真,加上机组长时间的飞行,很难时刻保持注意力高度集中。因此机组误听时有发生,从而误操作引发冲突。

2.形似音不似。如CCA 4543/CFS5435。此类情况一般针对管制员而言,由于航班号在拼写上存在一定的相似度,从而导致管制员容易张冠李戴、口是心非。

3.形似音也似。HVS531/ HVS513, CS7, 9561/CS7, 9651。此类情况是最为典型的相似航班号,从拼写和读法上都高度相似,因此管制员和机组双方均容易误发、误听从而误操作。

4.形音均不似。如KA 1,362/AAR 768,JA 1,740/A A R 734。在实际工作中,个别非英语母语外籍机组易误听,甚至需要屡次纠正。

5.中英文干扰。如CS7, 9574/CS7, 9554 ,前一航班机组中文机组,而后一航班为外籍机长带飞,故讲英文。此类情况一般为有外籍机组航班的国内机组误听中英文指令。

二、相似航班号出现的特征

相似航班号的出现具有明显的不确定性,受诸多因素影响:

1.进入同一扇区(频率)时间不确定

(1)航班时刻的调整;沿途任一管制部门的流量控制;起飞、目的站甚至航路天气的影响。

2.使用语言不确定

(1)国内机组通话使用语言随意,中英文均可;机组英文水平参差不齐。

3.临时加班、补班和包机飞行

临时飞行任务无规律可言,尤其是补班飞行,由于航班号不变,只是在其后加缀一个英文字母并且执行时间接近,非常容易造成相似航班的出现。

三、相似航班号造成不安全事件的原因

1.扇区内飞行流量失常

多次教训表明,与相似航班号相关的不安全事件多发生在扇区内飞行流量过大或是扇区内飞行流量较小的时段。当扇区内飞行流量过大,超过了管制员能够承受的范围时,管制员的精力往往跟不上扇区内飞行形势的变化,没有过多的精力关注相似航班号问题,这时候往往会对机组误听指令的复诵没有那么敏感,对错误没有及时纠正,导致不安全事件发生。反之,当扇区内飞行流量很小时,管制员精力不容易全部集中在需达屏幕上的飞机上,这时候也会出现对机组复诵麻痹大意的现象。

2.交接班时信息传递不完整

在工作开始的最初几分钟和结束前的最后几分钟时间是出现不安全事件相对较多的时候。管制员进入指挥状态需要一个短暂的过程,刚接班的前几分钟,对扇区内的形势不一定全部清晰明了,在这种状态下发布的管制指令往往会产生冲突。

3语言习惯差异带来的语义偏差

由于拉美语种、东南亚口音以及标准的英语国家之间在部分字母、单词以及短语、但语之中的语言差异巨大,这些情况下,有些机组听到通话里提到自己的航班里的个别数字或个别字母,想当然地以为指令是发给自己的,执行了不该执行的指令,导致不安全事件的发生。

四、减少相似航班号影响的建议

1.及时发现相似航班号的存在

(1)班组内部协同合作,发现相似航班号及时提醒和标记。

大流量时会出现更多的相似航班号,仅仅靠指挥席来发现相似航班号难度较大。此时要发挥班组内部各个席位之间的协同合作精神,监控席、协调席、带班席在工作中发现相似航班号时要及时提醒,并在进程单或者自动化系统需达标牌下做出相应的标记,以起到提醒指挥席的作用。

(2J善于总结统计,按时段归纳出相似规律。

虽然每天航班的运行动态各不相同,但是如果对每天各个时段出现的相似航班号进行统计,总结出在该时段出现频率较高的.相似航班号。将其统计成表,在每次值班前浏览一下,做到有的放矢。在工作中发现其中任一个航班号后,就会对其产生警觉,可以起到提醒作用。

(3)关注换季后的航班变化,做个有心人。

在每次航班换季之初,总是会发现有许多似曾相识的新航班号,总会存在没有遇到过的相似航班号。这时就要提醒自己,也要提醒同事,多加防范,以免出错。

(4)复诵出现干扰,及时引起重视。

管制员在指令发出后,听到的复诵有干扰,就要引起警觉,及时采取措施,辨明是否误听复诵,是否有遗漏的相似航班号存在,并及时纠正。

2.减小相似航班号影响的措施

(1)重读音节要特殊对待。对相似航班号的不同部分进行重读、慢读。如CSC 8833. CSC 8803重读音节在“3”上,通过重读引起飞行员的关注。

(2)标注符号要引起重视。在需达标牌下方的信息栏上进行标注,用以提醒自己,该航班号区域内有相似航班号,要特别注意。对己做标记的航班要有一定敏感度,不能熟视无睹。

(3)高度不同要特别提醒。给相似航班号发高度指令时要特别谨慎。起始高度不同的相似航班号,在指令改变时可使用“XXX航班,离开XXXX米上升到XXXX米”的形式,加以区分。

(4)指令起始连读两次航班号。因为相似航班号的存在,导致飞行员误听指令,很大一部分原因是飞行员没有认真听清指令的对象。如果管制员在发指令时,连读两次航班号,可以非常有效地避免飞行员的误听。和只读一次相比,区别相似航班号的有效性绝不仅仅是两倍的关系。

(5)分别指令以防止误听。对涉及相似航班号的航班,发布指令时,可以分别给出指令。例如:“CFS2805,上升到玖俩”,“CFS2905保持八千四”,通过指令帮助机组区分,可以有效地防止误听误操作。

(6)提前喊出再给指令。对于相似航班号,还可以采用先喊出机组,再给指令的方法。例如:CF52805,经过判断机组回答无误,再发出后续指令。

基于相似性滤波的红外小目标检测 篇6

空中弱小目标的检测是当前红外研究的热点和难点,当导弹﹑飞机与红外探测器的距离很远时,目标在红外图像中仅占一个或几个像素点,很难提取出目标的形状结构﹑纹理等特征,而且红外图像中绝大部分是起伏的云层和大气辐射背景,目标往往会淹没在背景当中,同时红外探测器和成像系统本身也会引入各种噪声,使得红外点目标的图像信噪比低,对比度低,更增加了弱小目标检测的难度。

鉴于点目标只有灰度信息,同时信噪比低,传统的基于目标的特征和强度信息的方法很难实现小目标的检测,因此,检测识别点目标的可用信息时除了目标本身的灰度信息外,还必须利用目标周围的灰度分布和图像中灰度起伏特征。本文利用背景像素点和目标像素点的灰度值在空间分布上与其邻域像素之间的差异,提出相似性滤波的方法来抑制背景杂波的干扰,提高图像的对比度和信噪比。同时为了降低噪声的影响,对红外图像中存在的高斯噪声和脉冲噪声分别进行处理,不但尽可能的消除了噪声的影响,还最大限度的保留了图像的边缘信息。结合Robinson Guard空域滤波方法,给出了红外点目标检测的具体实现。

2红外点目标﹑背景和噪声的特性分析

天空红外图像的背景绝大部分是云层和大气辐射,既有较亮的块状云团,面积较小的云朵,也有暗淡的大气背景。云层和大气辐射部分的像素值是平缓变化的,相邻像素点的灰度值之间具有很强的相似性。运动目标往往淹没在背景当中,仅占几个像素点,从灰度值上看,因为目标点的热辐射作用,点目标灰度值与背景灰度值之间存在很大差别,与周围邻域像素点之间的相似性很小。红外噪声主要包括热噪声﹑散粒噪声﹑1/f噪声和温度噪声等,红外噪声的分布与背景无关。

基于灰度信息的红外点目标图像模型可以描述为:

f(i,j)=fT(i,j)+fB(i,j)+fN(i,j) (1)

其中,fT(i,j)为红外图像的灰度值;fT(i,j)为点目标的灰度值;fB(i,j)为背景灰度值;fN(i,j)为噪声灰度值。点目标和噪声为图像中的灰度奇异点,属于图像的高频信息,大部分背景属于图像的低频信息。

3自适应噪声处理

天空点目标的红外图像是低信噪比的图像,为了有效的检测出点目标,必须去除图像中的噪声。传统的去除噪声方法主要有:中值滤波法﹑均值滤波法﹑形态学方法和小波方法。但这些方法往往只对某种噪声有效或严重依赖于给定的关键值。红外图像一般同时受到高斯噪声和脉冲噪声的污染,为了有效去除这两种噪声,很多自适应的方法被提出[2,3],但这些方法在去除图像噪声的同时使得图像变得模糊。图像的边缘包含很多有用的信息,在去噪的同时应尽可能的保留,因此,在上述方法的基础上进行改进:对图像中受噪声污染的像素和边缘像素进行识别,对被高斯噪声和脉冲噪声污染的像素点分别进行处理,保持边缘像素点,从而在尽可能消除噪声影响的同时保留图像的细节。

3.1像素点的区分

脉冲噪声(正脉冲噪声和负脉冲噪声)在数值上通常表现为局部极大值或极小值,但数值很大或很小的像素并不一定就是脉冲噪声点,还必须利用噪声的其他特性[4]。考虑噪声点往往是孤立点,即几个脉冲噪声点同时在一起的可能性很小,而边缘点虽然在局部也具有最大或最小特性,但边缘像素点是连续的,同时高斯噪声点集中分布在其均值左右的三倍方差范围内。利用这些特性来实现脉冲噪声﹑高斯噪声﹑边缘的分离。

设f(i,j)为图像中任意点,以像素f(i,j)为中心的邻域内全体像素点的均值为m﹑方差为σ,设max(i,j),min(i,j)分别表示邻域内像素的极大值和极小值,计算f(i,j)与均值m之间的偏差σy,表示y(i,j) 8邻域中的任意点,σy表示y(i,j)与均值m之间的偏差,则具体判别规则如下:

(1)若σf≥3σ,并且f(ij)=max(i,j)或f(ij)=min(i,j),且存在y(i,j)满足σy≤σf,则将f(i,j)判为边缘点,保留其灰度值,不对其进行去噪处理;

(2) 若σf≥3σ,且f(ij)=max(i,j)或f(ij)=min(i,j),但不存在y(i,j)满足σy≤σx,则将f(i,j)判为脉冲噪声点;

(3)将不满足(1)﹑(2)条件的点判为受高斯噪声污染的点;

对整幅图像的像素点分别进行计算,判别出图像中的像素点分别属于脉冲噪声﹑高斯噪声﹑边缘像素的类别,分别对它们进行不同的噪声处理。

3.2噪声处理

中值滤波利用当前滤波点的邻域平均值来代替当前点的灰度值,均值滤波利用邻域中值来代替当前点的灰度值,同时为减少滤波点周围噪声污染像素点对滤波效果的影响,对滤波窗口内像素点给出相对应的权值,权值随噪声类型和局部灰度变化而改变,通过改变权值控制滤波效果。如果当前像素点为高斯噪声或灰度值与局部的中值相差不大,最后的滤波器处理结果则趋近于均值滤波,如果当前像素点为脉冲噪声或灰度值和中值相差很大,最后的滤波器处理结果趋近中值滤波。通过噪声类型和局部灰度分布变化自适应得调节滤波器的参数,尽可能的利用中值和均值的滤波的良好特性。

改进的自适应滤波处理的表达式如下:

式中,med为滤波窗口内灰度中值;f(i,j)为点(i,j)灰度值;f(i+m,j+n)表示f(i,j)的滤波邻域;定义该点权值为wi,j(m,n),归一化权值为undefined;(-p,p)是滤波窗口的范围;g(i,j)为f(i,j)经过滤波后的灰度值。

4相似性滤波算法

在红外运动目标的检测中,为了消除背景的影响,提高图像的信噪比,一般采用预测背景的方法,将预测的背景fL(i,j)与原始图像作差分。自适应背景预测表达式如式(2)、(3)。wi,j(m,)为像素值的加权系数。权系数的取值由邻域像素值与窗口中心像素值绝对差的某个函数决定 即:

undefined (6)

若f(i,j)为物体内部或弱边缘,则与邻域点的灰度值相差不大,这时主要使用邻域点对其预测,需要选取较大的邻域权值wi,j(m,n)。若f(i,j)处于物体的强边缘,其邻域点灰度值与之差异显著,此时需要保留f(i,j),邻域权值wi,j(m,n)取值较小,为此ϕ可以选择单调递减函数。

将预测背景图像与原始的图像作差分,得到残差图像f'(i,j)如下式:

undefined (7)

利用邻域灰度值的加权对当前像素点进行预测不可能得到完全精确的值,预测值与原始灰度值之间存在着误差,对于整幅图像来说,各个背景像素值的误差其分布在实际处理中认为近似服从高斯分布,即后续的处理被看作是从高斯分布中寻找非高斯信号的过程。对高斯信号中非高斯信号的识别非常复杂,而且由于背景预测的影响使得点目标的非高斯特性不明显。同时采用预测背景的方法不但要计算各个邻域点的加权系数,还要将各个邻域点的灰度值与权系数相乘并计算累加和,计算非常耗时,不利于红外点目标在实际中的应用。为此,在背景预测基础上提出一种相似性滤波方法。

相似性滤波是基于红外天空图像的像素分布特点而提出的。若当前像素点属于背景像素时,因为背景平缓变化,相邻像素值之间具有很强的相似性,则当前像素与它的邻域像素点之间的平均相似性很大;若当前点为点目标像素,目标像素点因辐射作用,灰度值与周围像素点存在一定差异,与邻域像素点的平均相似性很小;若当前像素为背景的边缘,该点与邻域部分像素存在较大差别,则平均相似性介于点目标与背景之间。通过像素点之间平均相似性的评价,把图像中所有或明或暗的云层和暗淡的大气辐射背景都统一转化为平均相似性接近的区域,通过平均相似性取反值,背景区域的像素值趋近零,突出相似性小的点目标,而边缘部分的相似性介于两者之间,实现了背景﹑点目标﹑云层边缘的分离。相似性滤波的表达如下:

undefined (8)

undefined (9)

undefined (10)

其中,s(i,j)为当前滤波点s(i,j)的平均相似值;undefined为平均相似性的反值;k为邻域像素个数;(Δi,Δj)表示邻域大小,一般根据目标的大小选择合适的矩形区域;s(i+Δi,j+Δj)为邻域点f(i+Δi,j+Δj)与当前点f(i,j)的相似性;σ用于调节函数的衰减速度。

相似性滤波抑制了占图像中绝大部分的背景杂波,同时增强了待识别的点目标信息,保留了图像中的边缘细节,使得整幅图像的对比度和信噪比得到大大提高,即使点目标在原图像中的灰度值与部分背景灰度值差别不大也能够在图像中得到明显体现。相似性滤波后的背景部分不再是近似高斯分布的噪声,而是仍然满足平缓变化的区域,在减少大量计算量的同时,使得后续的点目标识别变得简单。

5点目标检测算法的实现

红外图像中噪声对点目标检测识别的影响很大,在进行相似性滤波之前,对原始图像进行去噪处理消除噪声尤其是高斯噪声的干扰,然后对图像进行相似性滤波,达到抑制背景的同时增强点目标,分离边缘云层,提高整幅图像的对比度和信噪比,为得到点目标,结合Robinson Guard 空间滤波算法进一步消除平缓变化的背景﹑背景边缘的影响。

6仿真试验与结果分析

6.1仿真试验

图1~图4为两组天空红外弱小点目标的仿真图像,其中图1为原始图像,对它分别进行处自适应去噪处理和相似性滤波操作,图2为相似性滤波后的图像,图2中云层和大气辐射背景被极大的抑制了,同时云层的边缘被很好的保留,不明显的点目标被极大增强了。利用Robinson Guard对图像进一步处理,如图4为最后检测的结果。

图1中,点目标并不明显,点目标的灰度值低于部分背景像素的灰度值,背景并不是均匀分布的,认为点目标与背景的灰度值具有极大差异,如基于局部能量比[5],图像熵[6],分形维数[7]和蚁群的Otsu[8]方法等都不能够很好的实现目标的检测。图3分别为原始图像与预测背景图像作差分后的残差图像(为便于直观显示,对整幅残差图像的灰度值进行了线性调整),图像中的背景部分经过抑制后仍然存在大量的杂波,这是由于预测的不准确造成的,部分杂波灰度值接近点目标灰度值,点目标难于利用简单有效的方法识别出来。图2采用相似性滤波的方法能够将明亮的云层和暗淡的大气辐射背景都转化为平缓分布的暗淡区域,其大部分像素趋近于零值,图像中点目标虽然与部分背景灰度值接近,但滤波后却被增强了,同时滤波后很好的保留了背景的边缘变化,图像的信噪比和对比度获得极大的提高。平缓背景的高信噪比和高对比度图像中目标的检测很容易实现。

6.2结果分析

采用自适应噪声处理和相似性滤波的方法能够有效地提高图像中信噪比和对比度,抑制图像中对点目标检测造成干扰的大量背景杂波信息,结合Robinson Guard滤波方法能够有效的实现点目标的检测。

算法的实现是建立在原始图像的背景分布比较平缓的条件下,若背景的变化特别剧烈,则相邻像素点之间的相似性很小,易于突出变化激烈的背景像素,造成点目标在相似滤波后仍然受到的背景杂波的干扰,相似性滤波对图像质量的提高能力有限;当点目标很小时,噪声斑块的大小和灰度值可能接近点目标,相似性滤波会引起部分噪声点的增强,因此必须对噪声进行有效地的预处理;相似性滤波窗口的大小要选择适当,过小时,使得当前像素点被误判为背景像素点,目标点有可能出现空洞甚至丢失现象,过大时,计算耗时。

摘要:针对天空红外图像的特点,利用背景像素点和目标像素点的灰度值在空间分布上与其邻域像素灰度值之间的差异,提出相似性滤波的方法,相似性滤波的方法,算法简单,图像中的背景干扰能够被极大抑制,图像中点目标的对比度和图像的信噪比被显著提高。为减小噪声影响,一种自适应的噪声处理方法被给出,它对图像中的高斯噪声和脉冲噪声分别处理,在提高去噪效果的同时保留了图像的边缘信息。仿真结果表明提出的算法对红外点目标的背景具有极好的抑制能力。

关键词:红外点目标,自适应噪声处理,相似性滤波

参考文献

[1]郭杰峰,陈桂林.云天背景下单帧红外图像的点目标检测.激光与红外,2007,37(9):898~891

[2]Tudan,Yanhong,Zhenkang Shen.A New Nonlinear Preprocessing Algorithm for Infrared Image.IEEE,1997.

[3]曹西征,郭立红.基于相似加权滤波的红外图像增强算法.计算机测量与控制,2007,15(4):534~537

[4]何洪英,姚建刚,罗真生.红外图像的自适应混合消噪方法.计算机工程与应用,2006,6:7~9

[5]林玉野,高晓颖,曹炬.基于局部能量比的空中红外弱小目标的检测方法.航天控制,2007,25(5):48~50

[6]赵钦佩,姚莉秀,刘瑞明等.一种新的基于背景的红外图像分割方法.计算机仿真,2007,24(5):202~205

[7]卢晓东,周军,周凤岐.自然背景下对人造红外目标的分形检测.航空兵器,2006(12):31~33

论文相似性检测系统 篇7

制造成本是评价零件可制造性的一个重要指标,对产品设计是一种反馈,通过产品成本核算可使设计人员在产品设计阶段了解产品的制造成本,使设计人员及时改进设计以降低生产成本。制造成本估算的准确和快速,不仅便于企业生产活动的控制和管理,而且直接影响企业对市场的分析和产品数据的一致性。

有关资料证实:尽管产品设计费用只占产品总成本的5%左右,却决定了产品成本的70%~80%[1],但是在产品设计的早期阶段,只有零件的少量主参数,零件特征的一些参数尚未精确确定,因此,制造成本无法按照传统的估算方法直接进行估算,或者会导致很大的估算误差。

本系统的制造成本估算基于并行工程、DFM的思想使设计人员在零件设计的初级阶段,零件信息已知较少的情况下就可以对零件成本进行大致估计,从而对设计思路做出评价。由于设计早期阶段的成本估算并不能反映零件加工的一些具体的情况,因此系统还要有对零件成本进行详细分解的功能,这里我们称之为对零件的准确核算。准确核算基于传统的按工时计算成本的方法,要求系统包含更多产品工艺信息,使工艺设计人员可以进行详细的成本分析。

1 系统的框架结构

成本估算系统功能模块有以下几部分:分类编码及相似检索模块,基于模糊贴近度的零件成本估算模块,基于工艺的交互式成本核算模块,基础数据库的设计与管理模块。系统各模块之间的关系及工作流程如图1所示。

利用本系统对零件制造成本进行估算,不同的估算模块所需要的零件信息不同,因此会有不同的零件的信息输人界面与之相对应。在对零件信息进行输人时,根据所选的估算模块,输入不同的参数。

在本文中主要介绍基于模糊贴近度的零件成本估算模块。

2 基于模糊贴近度的零件成本估算模型的建立

2.1 模糊相似程度的定量化

该方法是利用模糊数学的基本原理,依据贴近度概念和择近原则,在同一条件下,研究和对比新零件与已有零件的相似程度,使已有零件和新零件的相似程度定量化,依据类似的已有零件成本资料估算新零件成本的过程。

研究新零件和多个已有零件的相似程度,可以选取m个特征因素,从m个方面考虑,如果用x1, x2, x3, …, xm分别表示特征因素,用数学语言来表达,该问题的论域是:

针对上式中m个特征因素,那么新零件与已有零件分别具有多少这些特征,新零件与已有零件的相似度如何,可以用隶属函数和贴近度来表示。相似程度的定量化问题就是贴近度的计算问题,贴近度越大相似程度越高,反之相似程度就越低。

贴近度一般是定义在F(U)上的一个模糊关系α(∈F(U)·F(U)),它具有以下性质:

1) α(A, A)=1;

2) α(A, B)=α(B, A)≥0

3) 若对任意u∈U,有μA(u)≤μB(u)≤μC(u)或μA(u)≥μB(u)≥μC(u),则有:

α(A, C)≤α(B, C)

由模糊数学中的内积、外积公式可知:

可求得:

αi=α(B, Ai)=(A·B)∧(1-A⊙B)

其中,“∧”表示最小值,“∨”表示最大值。可根据已有零件和新零件的隶属函数值,通过新零件与每一个已有零件的贴近度,从而将新零件与已有零件的相似程度定量化。

2.2 成本估算的数学模型

我们基于模糊贴近度的成本预测方法,以广泛采用的指数平滑法为理论依据来建立成本估算的模型。选取近期的k个零件,并将它们按物价指数折算到基准日期。则k个已有零件与新零件的贴近度(既相似程度)αi(i=1, 2, …, k),从大到小排列成一个有序数列设为α1, α2, α3, …, αk相对应的零件成本值为C1, C2, C3, …, Ck。也就是说与新零件最相似(贴近度最大)的已有零件成本为C1,次相似为C2,以此类推。设第i个相似零件的成本预测值为Ci,其预测误差为:Ci-C*i,则第i-1个相似零件的成本预测值为C*i-1=C*i+λ(Ci-C*i),意义是:对第i个相似零件的成本预测进行修正,方法是加上其预测误差Ci-C*i和平滑系数的λ(0<λ<1)乘积,然后把修正后的成本作为与新零件第i-1个相似子系统的成本预测值。

公式可改为:C*i-1=λCi+(1-λ)C*i

依次类推并展开,可得到新零件的成本预测值:

Cg=λC1+(1-λ)C*1=λC1+(1-λ)[λC2+(1-λ)C*2]=λC1+λ(1-λ)C2+λ(1-λ)2C3+…+λ(1-λ)k-1Ck+(1-λ)kC*k

此式即为零件成本的模糊估算模型,Cg值就是零件成本的模糊估算值。一般只要取与新零件最相似的3个已有零件即k=3即可满足新零件的成本估算精度要求。

2.3 影响成本的因素分解

所研究的对象是机械零件的制造成本,因此选取与制造成本密切相关的一些参数。生产实践表明一个零件的可制造性很大程度上受材料性能、几何形状、尺寸公差和现有加工方法等的影响。其中,零件材料和几何形状是最关键的因素。零件材料对产品性能、制造设备和成本有较大的影响,零件的几何形状(或几何特征)决定制造设备和制造成本,简单的几何形状或通用特征将具有较低的生产成本,产品设计中都要确定的尺寸公差、形状公差和表面品质直接影响加工方法的选择和成本的高低。因此,设计1个产品的零件时,考虑对制造过程有影响的因素:几何特征、材料、有效的制造资源、产品品质和其它要求等。下面从材料和工艺两个方面对影响零件成本的因素进行分解。

对于回转体类零件,将材料因素分解为直径和长度,将工艺因素分解为精度、形状复杂程度和功能复杂程度。对于非回转体类零件,仍然将工艺因素分解为精度、形状复杂程度和功能复杂程度,而将材料因素分解为长度、宽度和高度。

由专家依据分解的成本因素对新零件及各个相似零件进行打分,得到这些零件对应于上述因素的隶属函数值,系统分别计算新零件与已知相似零件的贴近度,并根据贴近度对零件进行排序。最终按照模糊成本估算的数学模型对新零件的成本作出评判。

2.4 系统的实现

根据上面所建立的模型系统,用Visual Basic 6.0和Microsoft Access作为开发工具,编制了基于相似性的机加工零件制造成本的估算系统。该系统主要包括5个模块。其中基于模糊贴近度的成本估算模块子系统又包括4个小的子系统:样本库子系统,模型库子系统,学习、测试子系统,成本估算子系统。样本库子系统的主要功能是完成学习样本和测试样本的录人、修改和样本数据的维护等工作;模型库子系统主要是完成模型的选择、修改等功能;学习、测试子系统主要利用样本库中的样本完成对系统的训练工作,并对测试样本的估算结果进行分析给出估算的误差情况;成本估算子系统是本系统的核心部分,它主要是利用模型库子系统中的模型对待估算的零件的制造成本进行估算.

2.5 应用验证及分析

为了验证所采用的基于相似性的成本估算方法的正确性,对轴类零件的制造成本构成进行分析,把影响其制造成本的因素归纳为以下5种:零件长度、直径、精度、形状复杂程度以及功能复杂程度。利用零件的成组编码作为系统的输人信息得到相似零件。利用系统计算新零件与相似零件的贴近度并进行排序,最后根据相似零件的成本利用公式计算出新零件的成本。测试样本的估算成本和相对偏差见表1。

3 结语

采用计算模糊贴近度的方法对机械零件制造成本进行估算,通过将影响成本的客观因素进行分解,将模糊程度定量化,在检索相似零件的前提下进行模糊的成本估算。该方法以零件工艺成本的核算为基础,它与人工主观估算方法相比,更为客观、真实地反映了成本的变化特性,为机械产品零件技术经济评价提供了可靠的科学依据。

根据对测试样本的分析,估算误差一般在9%以内,说明了采用此模型的正确性。有个别测试样本的估算误差较大,可能由于训练样本有限,随着样本库的不断完善,误差将会不断减小,会得到比较满意的结果.由此可见,运用模糊贴近度在设计的早期阶段对成本进行估算是切实可行的。

参考文献

[1]杨化动,范孝良,于海燕,等.并行工程中面向成本的设计方法的研究[J].机械制造,2003,41(5):46-49.

[2]王桂芹.机械零件制造成本核算系统研究[D].山东:山东大学,2002.

[3]许志兴,丁运亮,陆金桂.基于模糊贴近度的机械零件成本预测方法的研究[J].机械设计,2000(5):7-9.

基于段落相似度的论文抄袭判定 篇8

近些年来论文抄袭成为困扰学术界的严重问题之一,抄袭剽窃之风在今天的学术界愈演愈烈几乎是不争的事实。“抄袭是指将他人作品或者作品的片段窃为己有。”更准确地说应当是,抄袭是指将他人作品或者作品的片段窃为己有并公开发表[1]。

论文中可以适当的引用他人作品的部分内容,当然要指明出处,但如果引用不合理,就涉嫌抄袭。《著作权法实施条例》第二十七条第二款规定“所引用部分不能构成引用人作品的主要部分”,我国文化部1985年曾对合理引用量作了规定。该规定指出,引用非诗词类作品不得超过2500字或被引用作品的十分之一;多次引用同一部长篇非诗词类作品,总字数不得超过1万字;引用诗词类作品不得超过40行或全诗的四分之一,但古体诗词例外;凡引用一人或多人的作品,所引用的总量不得超过本人创作作品总量的十分之一,但专题评论和古体诗词除外[2]。

本文在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,最后给出一种基于段落相似度的论文抄袭判定算法。

2. 相关工作

2.1 国内外研究现状

学术论文抄袭的形式和手段多种多样,包括直接将他人论文全盘复制,只改动题目和署名;东拼西凑,抄袭多篇论文的部分段落和语句;抄袭论文的图、表与公式等。这里只讨论文字部分的抄袭判定。

在国外,自从1991年用于查询重复基金申请书的Word Check软件应用以后,自然语言文本的抄袭识别技术有了较大的发展,出现了多个抄袭识别系统。1994年,Mander开发了用于大规模文件系统中相似文件查询的siff工具。siff能够查询二进制和文本文件,率先使用数字指纹技术来计算文件相似度,为抄袭论文识别技术提供了新思路。1995年,Shivakumar等采用相关频率模型开发了复制检测系统SCAM[3],SCAM借鉴了信息检索技术中的向量空间模型,采用了改进的余弦法来计算文档相似度。同期,香港理工大学的Si和Leong等人建立的CHECK原型采用统计关键词的方法来度量文本相似性[4]。CHECK系统首次把文档结构信息引入到文本相似性度量中。2002年,Hoad和Zobel综合采用了词频统计和数字指纹方法来解决衍生文档的识别问题[5],通过对大量XML数据和Linux文件的测试以寻找较好的抄袭识别算法。另外,悉尼大学Wise开发了YAP(yet another plague)1,YAP2,YAP3系列工具[6]。YAP1和YAP2是用于程序复制检测的工具,YAP3利用程序复制检测的方法,既检测程序复制也检测文本复制。

在国内,2001年,西安交通大学宋擒豹等人提出了CDSDG(copying detection system of digital goods)系统[7],这是为了解决数字商品非法复制和扩散问题而开发的一个基于注册的复制监测原型系统。此系统通过对数字正文的多层次、多粒度表示来构建基于统计的重叠度度量算法,取得了较好的效果。2007年,金博等人还从论文的篇章结构相似度出发提出了基于篇章结构相似度的复制检测算法[8]。它是在学术论文理解的基础上,针对学术论文的特有结构,对学术论文进行篇章结构分析,再通过数字指纹和词频统计等方法计算出学术论文之间的相似度,从而找出抄袭的现象。但此算法只是针对书写格式规范的学术论文抄袭情况的判定。

上述的复制检测或者抄袭判定系统大多只能处理全文抄袭或大部分抄袭等情况,而对于个别段落的抄袭,尤其是从多篇文章进行段落摘抄的情况,容易疏漏。另外,在基于段落相似度比较判定时,由于很多情况下抄袭者也不是整段一字不动的抄袭,有的是调整语序,有的是更换一些词和短语,还有的是摘抄段落的一部分等等,所以判定时很容易漏查或误查。

2.2 向量空间模型

向量空间模型(VSM)即使用向量表示文本,该模型在文本分类、自动索引、信息检索等领域得到了广泛的应用,向量空间模型已逐渐成为最简便最高效的文本表示模型之一。本文的研究即采用向量空间模型。

向量空间模型中,文本的内容由一些特征来表达,一般由文本所含有的基本语言单位(字、词、词组或短语)来表示,即文本可以表示为Document=D(t1,t2,…,tn),其中ti表示各个项,都被赋予一个权重W,以表示这个特征项在该文本中的重要程度,权重一般都以特征项的频率为基础进行计算的,目前计算主要采用TFIDF公式,其中TF是特征项在文本中的绝对频率,而IDF表示特征项在文本中的文本内频数。TFIDF的计算公式很多,目前使用一种比较普遍的TFIDF公式:

其中,tfi(d)为词条ti在段落d中出现的词频,N为所有文档的数目,ni为出现了词条ti的文档的数目。

这样文本就可以表示为(t1,w1;t2,w2;…;ti,wi,…;tn,wn),可以简记为D=D(w1,w2,…,wn)。

3. 基于段落相似度的论文抄袭判定算法

3.1 基本思想

针对上一节指出的国内外研究技术的一些缺陷,本文提出了基于段落相似度的论文抄袭判断算法。为提高查准率,对于段落相似度的阈值设定很重要,我们在实验时发现当阈值过大时,容易漏查;而当阈值过小时,容易误查,当然这两种情况下查准率都不高。要想设定一个非常恰当的阈值非常困难,所以我们提出设定两个阈值,一个阈值是门限值,只要高于这个阈值就可以怀疑抄袭,当然有可能误查,需要进一步人工判定;另一个阈值是临界值,只要超过此临界值,就判定为抄袭,不再需要人工判定。当然临界值比门限值要大,实际处理过程是:在比较时如果低于门限值则排除,超过门限值而没有超过临界值则判定为疑似抄袭,超过临界值则直接判定为抄袭并输出。另外,由于有时要进一步人工判定,所以如果判定为抄袭或者疑似抄袭系统会分别在两个窗口输出抄袭论文和原论文的相似段落,以供用户查看。

在计算段落文本相似度时,向量的相似度计算可以采用余弦夹角公式:

给定段落di=("i1,#i2,……,$in)T,dj=(%j1,&j2,……,’jn)T。

di和dj的相似度定义如下:

3.2 具体算法

下面给出基于段落相似度的论文抄袭判定的具体算法。

步骤1:提取指定论文的中图分类号与关键词序列并保存;

步骤2:在论文库中,先通过中图分类号进行筛选,若相同或相近则进入下一步,否则排除;

步骤3:在摘要中检索,若有一个或多个关键词与指定论文的关键词序列相同,则进入下一步,否则排除;

步骤4:对于指定论文和筛选过的论文库中的任一篇论文进行比较:

(1)对指定论文进行分词,设去除虚词、语气词和停用词后单词个数为n;

(2)所有的段落表示成n维的向量;

(3)两篇论文的相似度计算如下:

1)先把两篇论文的所有段落任意配对,计算出所有可能的配对的段落相似度;

2)取相似度最大的一对,并将它们归为一组,并记录相似度值simi;

3)在剩下的段落的配对相似度中,取最大的一对,并归为一组,记录其相似度值,以此类推,直到所有段落都完成分组;

4)如果相似度值simi低于门限值(这里取15%)则排除,超过门限值而没有超过临界值(这里取50%)则判定为疑似抄袭,超过临界值则直接判定为抄袭;

(4)分别在两个窗口输出抄袭论文和原论文的指定段落,以供用户查看;

步骤5:从筛选过的论文库中取出另一篇再与指定论文进行比较,比较过程同前,直到文件夹中的所有论文都与指定论文比较完为止。

4. 结束语

基于段落相似度的论文抄袭判定方法的特点是:以段落为单位可以防止抄袭者将论文的段落顺序打乱;段落向量相似度比较可以检测到将段落语句次序打乱重新组合或更改部分词语的情况。由于最后做出的结论有一定误差,还需要人工进一步判定,所以在两个窗口中输出抄袭论文和原论文的疑似抄袭的段落,这样使得用户不必再从整篇论文中查找、定位抄袭内容,方便用户直接查看与判定。

对于中文学术论文的抄袭识别问题,相对于英文论文抄袭识别来说,由于需要额外考虑汉语的词切分、词法及语法特点,因此,难度较大。对于本文提出的算法和文中提到的其它算法都存在一定的误判,而且效率还需要进一步提高。另外,对于论点抄袭更是难以判定,一般需要借助于人工智能进行语意分析和判断。因此,对于论文抄袭问题还需要进一步研究,还不能完全替代人工判定。

参考文献

[1]金帛剽窃、抄袭他人的作品是一种严重的侵权行为——兼谈对剽窃、抄袭行为的认定[J].晋图学刊,2001,12.

[2]中华人民共和国著作权法实施条例[M].北京:知识产权出版社,2001.

[3]史彦军,滕弘飞,金博.抄袭论文识别研究与发展[J].大连理工大学学报,2005,45(1).

[4]Si A,Leong HV,Lau RWH.CHECK:A document plagiarism de-tection system.In:Proceedings of the ACM Symposium for Applied Com-puting.1997.70~77.http://www.acm.org/pubs/citations/proceedings/sac/331697/p70-si/.

[5]鲍军鹏,沈钧毅,刘晓东等.自然语言文档复制检测研究综述[J].软件学报,2003,14(10):175321760.

[6]Wise MJ.YAP3:Improved detection of similarities in computer pro-grams and other texts.In:Proceedings of the SIGCSE’96.1996,130~134.http://citeseer.nj.nec.com/wise96yap.html.

[7]宋擒豹,沈钧毅.数字商品非法复制和扩散的检测机制[J].计算机研究与发展,2001,38(1):1212125.

论文相似性检测系统 篇9

关键词:网络蠕虫,攻击检测,网络流量,自相似性

0 引言

随着网络蠕虫技术的发展与Internet应用的普及,网络蠕虫已成为当今网络面临的最大威胁。其多样化的传播途径和复杂的应用环境使其发生频率高、潜伏性强、覆盖面广、破坏巨大,预防并减小蠕虫传播所造成的破坏是当今网络安全迫切需要解决的难题。蠕虫的攻击分为扫描与目标选择、感染、传播3个阶段。如果在蠕虫感染传播前的第一阶段能对其检测到并发现其传播的特征信息,对防止中后期网络中由于蠕虫蔓延造成严重破坏尤为关键和重要。本文提出一种基于Hurst参数的蠕虫攻击检测方法,该方法采集网络数据包并提取相应的TCP、ICMP流量特征,检测被监控网络的网络流量自相似性。实验结果表明该检测方法对采用主动IP地址扫描方式传播的未知类型蠕虫攻击行为具有较好的检测效果。

1 网络流量自相似性与Hurst参数

1.1 网络流量的自相似性

自相似性是指一个随机过程在各个时间规模上具有相同的统计特性。Leland在1994年对局域网测试与分析的结果表明计算机网络通信中的网络流量具有统计自相似性[1]。其自相似性表现在较长一段时间内单位时间分组数的统计特性不随时间规模的变化而变化。Beran在1995年通过对大量的不同类别的可变比特率视频流数据的统计发现,网络流量同样表现出长相关特性[2]。

对于某时间序列X={Xi,i=1,2,…,N},如果其自相关函数可表示为:

则X称为严格自相似的序列,其中H是表征该序列自相似度的Hurst参数,0

自相似性最显著的特点是,它的m阶平滑过程X(m)在m→∞时相关函数结构上是非退化的,当m→∞且r(k)→0时,X(m)趋向于独立同分布随机变量序列。若r(k):k2H-2(k→∞),则称X是渐进自相似的序列。若∑r(k)=∞,则称X是长相关序列。序列X的自相似性程度使用Hurst参数H表示,H=1-β/2。对具有长相关特性的自相似性过程,0.5

1.2 Hurst参数的计算

计算Hurst参数有多种方法[3],主要有聚合方差法、绝对值法、R/S法、周期图法、小波系数方差法[4]。其中小波系数方差法具有算法简单、易于计算、计算结果准确的优点,本文选用小波系数方差法计算网络流量中的Hurst参数。

对于时间序X={Xi,i=1,2,…,N},Xi表示第i个单位时间内到达网络流量单元的数目。选取一个正整数N,并把这个序列化分成为N块,然后在每一块内部计算平均值,得到聚合以后的序列:

这样可得出与聚合序列XN(k)的方差相等价的式子:

两边取对数得:

由式(4)可构造线性相关函数:

对每个时间系列的X(N),都计算出其方差:

并将该计算方差过程记为PVar。

根据式(6)计算出的Var(X(N))值和N值,可以做出{log(N),log[Var(X(N))]}关系线性图。但是在实际分析过程中,不可能通过绘图进行测量。由于Var(X(N))和N的{log(N),log[Var(X(N))]}曲线呈线性关,因此可采用直线对所得曲线进行拟合。然后根据曲线的斜率t得出β值,β=-t,从而求出自相似系数H=1-β/2。

2 蠕虫攻击检测系统设计

2.1 蠕虫攻击检测方法

蠕虫利用系统漏洞进行传播之前要进行目标机扫描探测,ICMP Ping包和TCP SYN,FIN,RST及ACK包均可用于扫描探测[5]。在扫描探测时,若蠕虫攻击机需扫描的IP地址不存在或不可路由,则会返回给蠕虫攻击机一个ICMP不可达包;若目标机地址存在但没有可被感染的漏洞,蠕虫攻击机会产生一个RST重建连接的数据包。蠕虫进行扫描探测时,将产生了大量失败的TCP连接,收到的ICMP,RST数据包剧增,导致网络自相似性降低[6,7]。在蠕虫攻击导致网络中存在大量无效相似数据流时,网络流量将趋向于泊松分布,且Hurst参数值趋向于0.5。从Hurst参数值的变化可检测到当前网络中出现的蠕虫攻击。

在具体应用时,可先计算出正常网络流量的Hurst参数值。在发生网络蠕虫攻击时,计算出当前异常网络流量的Hurst参数值。最后分析前后计算的Hurst参数值变化情况。

令正常网络流量对应的Hurst参数值为Hnormal,有蠕虫扫描攻击的异常网络流量对应的Hurst参数值为Hworm,令Δh=Hnormal-Hworm。设定阀值θ,若Δh>θ,则认为蠕虫攻击发生了,否则可认为没有发生蠕虫攻击。典型的网络流量自相似参数Hurst参数值为0.75~0.85之间[8],当Hurst参数值小于0.5即可认为已不是自相似流量,阀值θ可设定为小于0.25。为能有效地检测到网络蠕虫攻击行为,本文设定的θ为0.2。当Hurst参数值变化值Δh超过0.2,就可认为在网络中检测到蠕虫攻击行为。

2.2 蠕虫攻击检测模型

当前多数攻击检测系统是基于Dorothy Denning的攻击检测模型,这种模型分为误用检测和异常检测[9]。与误用检测方法相比,异常检测的明显优点是能检测出未知类型的网络攻击。本文的网络蠕虫攻击检测系统采用的是异常检测模型。基于上述分析,设计实现的模型包括5个部分,分别是数据包捕获模块、数据包特征提取模块、Hurst参数计算模块、流量模型、蠕虫攻击检测模块,如图1所示。

在图1中,数据包捕获模块使用WinPcap对被监控网络进行数据包采集;数据包特征提取模块负责提取采集的网络数据包TCP,ICMP流量特征,并将其存储到特征库;Hurst参数计算模块将数据按照时间划分时间序列,计算求解出相应的Hurst参数值,这些数据为下一步建立正常/异常网络流量模型提供重要依据;蠕虫攻击检测模块根据前面的结果判断是否检测到蠕虫攻击。

3 实验结果

为验证该系统对蠕虫攻击检测的可行性、正确性,选取了一个典型的网络拓扑进行实验,其拓扑结构如图2所示。为了使测试更接近真实网络环境,检测机在不同时段、不同环境下从校园网路由器上捕获网络数据。

不同类型的网络蠕虫其扫描IP地址生成策略不同,实验中使用了Code Red,W32.Blaster,Flash,Warhol,Contagion产生5种不同扫描探测类型的蠕虫攻击数据包样本。实验中,为避免数据样本大小不对称造成的实验结果偏差,采用了12次交叉验证法,最后以12次实验结果的平均值作为最终的结果。在实验结果的评估指标方面,使用准确率、遗漏率、误报率3项指标作为验证实验有效性的依据。实验检测结果如表1所示。

表1中的前4种蠕虫按一定策略生成扫描探测目标IP地址并主动对目标机进行攻击,此类蠕虫在扫描探测时会导致网络流量异常。最后一种蠕虫Contagion采用被动式扫描方式,其在传播攻击时无需扫描,而是等待潜在的被攻击对象主动连接它[10],此类蠕虫的传播不会引起网络流量异常。该系统使用的是没有蠕虫类型特征库的异常检测方式。由实验结果可知,该系统根据网络流量的变化情况能及时准确地检测到采用主动扫描探测攻击的未知类型蠕虫攻击行为,但无法检测到不会引起网络流量异常的被动式扫描类型蠕虫攻击。

4 结语

网络蠕虫攻击是当前因特网的主要攻击方式。随着网络环境的日趋复杂,传统的检测方法已不能准确区别未知类型蠕虫攻击和正常网络流量拥挤之间的区别而造成误报漏报。基于网络流量自相似性的蠕虫攻击检测方法,无需获取蠕虫特征值信息就可检测到采用主动扫描探测的未知蠕虫攻击行为,实验表明该方法对蠕虫的检测防御具有一定的实用性和可用性。今后的工作重点是将误用检测和异常检测相结合进一步提高蠕虫检测成功率,并研究对采用被动式扫描的未知蠕虫攻击检测方法。

参考文献

[1]LELAND W E,TAQQU M S,WILLINGER W,et al.On theself-similar nature of Ethernet traffic(extended version)[J].IEEE/ACM Trans.on Networking,1994,2(1):1-15.

[2]BERAN J,SHERMAN R,TRAQQU M S,et al.Longrange dependence in variable bit rate video traffic[J].IEEETrans.on Communication,1995,43(2/3/4):1566-1579.

[3]第文军,薛丽军,蒋士奇.运用网络流量自相似分析的网络流量异常检测[J].兵工自动化,2003,22(6):28-31.

[4]李永利,刘贵忠,王海军.自相似数据流的Hurst参数小波求解法分析[J].电子与信息学报,2003,25(1):100-105.

[5]Fyodor.The art of port scanning[M].Phrack Magazine,1997,7(51):11-17.

[6]ELLIS Daniel R,AIKEN John G,ATTWOOD Kira S,et al.A behavioral approach to worm detection[C]//Proc.of ACM Workshop on Rapid Malcode.New York,USA:ACM,2004:43-53.

[7]WU J,VANGALA S,GAO L,et al.An efficient architec-ture and algorithm for detecting worms with various scantechniques[J].Proceedings of the Network and DistributedSystem Security Symposium.Washington:The Internet So-ciety,2004:143-156.

[8]LELAND W E,WILLINGER W,TAQQU Murad S,et al.On the self-similar nature of ethernet traffic[J].Computer Communication Review,1995,25(1):202-213.

[9]高能,冯登国.一种基于数据挖掘的拒绝服务攻击检测技术[J].计算机学报,2006,29(6):944-951.

论文相似性检测系统 篇10

大功率电力牵引系统(如高速铁路、电动汽车、风力发电、机床传动系统)的性能测试存在测试周期长、风险大、实验成本高等缺点,使得研究大功率电力牵引系统存在困难,因此研究测试风险小、使用方便的传动系统测试装置具有重要意义。本文基于相似性原理,提出一种直流闭环调速电力牵引系统实验方法及其实验装置,在此平台上可进行大功率直流牵引系统的动态性能和稳态性能测试,具有实验成本低、方便、风险小等优点,通过改变实验测试装置接线,可为研究高性能的直流电力牵引系统提供借鉴。

1 实验系统的基本原理

近几十年来,随着相似理论在实践应用中的不断深入,其相似方法和技术都有了迅速的发展。作为相似理论重要应用的模型试验,因其成本低、准确性高及较好的可预测性等独特优点而被广泛应用于诸多领域,已成为现代科学研究及工程设计的一种重要途径和方法。所谓相似性原理就是仅仅以功能相似为基础,用模拟来再现原型功能的一种模拟方法。一般来说,两个系统的结构相似,功能不一定相似;反过来说,功能相似,结构也不一定相似。相似性原理着眼于系统间的功能相似,而不必追究结构是否相似。传递函数是描述系统运动的数学模型,它表征系统的固有特性,只取决于系统的结构和参数,当两个系统有相同的传递函数时,表示它们有相似的性能。运用相似性原理,通过构建实验系统使实验系统的传递函数和直流电机调速系统的传递函数相同,因此,通过研究小功率的实验系统的性能来了解实际大功率直流电机调速系统的性能。

2 实验方法及实验装置设计

2.1 直流电机调速系统的传递函数

直流电机调速系统由电源、比较环节、调节器、电力电子变换器、直流电机和测速发电机等构成。直流电机调速系统的传递函数如下:

其中,K=KpKSαCe./KP为比例放大系数;KS为电力电子变换器放大系数,TS为电力电子变换器延迟时间;Tm=GD2R/375CeCm为直流电机机电时间常数;Tl=L/R为电枢回路电磁时间常数;Ce为电动势常数;α为转速反馈系数。

2.2 实验系统的传递函数

一种基于相似性原理的直流电机调速系统实验装置,其硬件电路由电源、求差电路(1)(2)、比例电路(当直流电机调速系统为比例积分调节器时,比例电路为比例积分电路)、惯性环节电路(1)(2)、反向电路、积分电路、放大电路(1)(2)和示波器等构成。实验装置的电路图如图1。

由模拟电子电路和自动控制原理的知识可得到实验装置的传递函数如下:

其中,K′=R2R4R8R10/R1R3R7R9。通过对比实验系统和直流电机调速系统的传递函数以及相似性原理可以得到:实验系统的传递函数和直流电机调速系统的传递函数的形式是一样的,通过调节实验系统的电阻和电容的值使实验系统的传递函数和直流电机调速系统的传递函数一样,即:KP=R2/R1;KS=R4/R3;TS=R4C1;Tl=R5C2;Tm=R6C3;Ce=R7/R8;a=R10/R9

3 仿真实验对比分析

建立直流电机调速系统仿真模型,各个环节参数如下:直流电机:额定电压UN=220V,额定电流Id N=55A,额定转速nN=1000r/min,电动机电动势系数Ce=0.192V·min/r;晶闸管整流装置的放大系数KS=44,滞后时间常数TS=0.00167s;电枢回路总电阻R=1Ω,电枢回路电磁时间常数TL=0.00167s,电力拖动系统机电时间常数Tm=0.075s;转速反馈系数α=0.1V·min/r;给定电压Un*=0.3V

当调节器为比例调节器时,参数Kp=0.18得到的仿真结果如图2。

由上述直流电机调速系统参数构建的实验装置的参数如下:电阻的阻值:R=200K R1=100K;R2=18K;R3=0.038K;R4=R5=1.67K;R6=25K;R7=10K;R8=52K;R9=200K;R10=20K电容的值:C1=C2=1µF;C3=3µF电源:U=0.3V。运行实验装置得到如下实验结果(见图3)。

由仿真和实验波形对比可知:当调节器为比例积分调节器时,仿真波形和实验波形都有超调,一段时间后都稳定在设定值,没有稳态误差,上升时间、超调量、调整时间基本相同,两者波形基本一致。由此得到,实验装置的性能和直流电机调速系统的性能相似。

4 结论

由上述的仿真和实验验证了一种基于相似性原理的直流电机调速系统的实验方法及其实验装置的可行性,因此,可在小功率实验平台上进行大功率直流电机调速系统的动态性能和稳态性能测试,为研究实际直流电机调速系统的性能提供实验平台,降低测试风险,提高性能测试的可靠性和快速性。但此装置还存在不足,由于实验装置的电压限定在5V之内,所以整个仿真结果和实验结果都是在电压小于5V得到,要想更加接近于直流电机调速系统的真实性能,实验装置可以更换为功率更大的仪器。

摘要:为研究直流电机调速系统的性能提供实验平台,降低测试风险,提高性能测试的可靠性和快速性,基于相似性原理提出了一种研究直流电机调速系统的新实验方法及其新实验装置。运用相似性原理,构建实验系统使实验系统的传递函数和直流电机调速系统的传递函数相同,通过研究实验系统的性能来了解直流电机调速系统的性能。仿真及其实验结果表明此实验方法和实验装置的可行性。

关键词:直流电机调速系统,相似性原理,MATLAB,实验装置

参考文献

[1]熊颉.大功率变频交流牵引电机测控系统的设计和实现[D].长沙:中南大学硕士学位论文,2010.

[2]冯雍明.电机的工业试验[M].机械工业出版社,1990.

[3]葛治国.电机自动测试系统研制与研究[D].杭州:浙江大学硕士学位论文,2002.

[4]刘云,王艾伦.复杂系统相似性原理与相似条件研究复杂性[J].系统工程学报,200924(03):350-354.

[5]刘永振.自然辩证法概论[M].大连:大连理工大学出版社,2010.

上一篇:高等教育学下一篇:工业用火