现在流行的检测论文重复率的系统大概有这么几类:知网、paperpass、维普、万方等。这些系统的检测原理都是一样的,提交的论文拆分成一堆句子,再拆分成一堆关键字,然后与系统的数据库做对比,计算重复的文字在你文章里的比重,算法类似于百度的关键字匹配。
简单来说,就是你简单地把一个句子的各别词换成同意词,把字句变被字句,加一两个“的”等是不行的,除非你把句子40%的词都换了。略有不同的他们数据库内文献的多少、查重的粒度及断定为相似的阀值。数据库的大小就不说了,那后两个是什么呢?查重的粒度指可以被认定为重复句的最小句长,举个例子,现在的系统都把分号与句号当作分句符,paperpass把这个最小句长设为8,这意味着小于8个字的句子无论怎样都不会被认为是重复的,因为你没有到人家检测的门槛。知网的好像是13。相似的阀值指和原文相似多少以上为重复,举个例子,paperpass把你的文章中的文字分为三种绿色、橙色与红色,分别表示该句与原文的重复度在40%以下、40%~60%、60%以上,除绿色以外其他部分都会被计算为相似度,而知网的阀值好像为60%,只会把你的文章中的句子分为两类:重复与原创。同时,还要说明一下,这个阀值有可能不是固定的,一般系统会设一个重点检查的论文,比如说,你抄文献A的比较多,知网查出你的文章与A的重复度在5%以上,系统就会重点查A,如果你这句子与A有50%的相似也可能会判为重复。
我所理解的查重系统的大概原理也就这些了。下面介绍下我们常用的系统:知网与paperpass(www.paperpass.com)。
知网是官方的系统,大部分学校用的都是知网,知网查重入口在哪里?当然我校也是;paperpass为一个公司开发的,因为操作方便、不太贵且非常严格,被我们广泛使用,我个人只用过paperpass。因为,只有校方的人有知网的入口,他们在淘宝上买,一次要300,而且经常要改的话可能要检数次,对学生是一笔很大的开销。除此外,至于我为什么没用知网查,还有个小故事,教研室和我一同改论文的一兄弟,paperpass改到了17%,用知网查了一个才0.7%,我这个18%也就非常放心了。paperpass查一次是一万字10元,我的正文纯字数3万4,加标点近4万,检一次40元。 paperpass由于参数严格,所以结果会高于知网的,至于高多少这没有准。但使用paperpass时要注意的是,paperpass的数据库并没有知网全,他们自已也承认,他们只保证有知网90%以上的文献,那哪部分没有呢?据我观察是最新的没有,paperpass是商业机构,他们没有知网的数据库,他们数据的来源可想而知---买个知网的号,然后“扒”论文,类似于百度的人说我们的一大工作是“扒”网页。所以最新的没来的及入库的,当然也检不到,不过还好的是,他有“自建库”功能,如果你觉得你抄了某最新文献B比较多了,但没查出来,可以自已上传。
同时,因为paperpass有时过于严格,会出现,你都已经看不出改动了,他还是橙色,比如我的18%、我兄弟的17%。这时就可以不改了,过尤不及,0.7也说不过去。
下面说下我的方法,这个网上都有,而且更全,我怕不过,但又不想在这上面费更多的时间,就简单地用了几招:
1.尽量用长句,相当于加大基数。
2.拼凑,不是把不同文献的句子拼成一段,这样没用,而是把几篇文章中的同一意思的几个句子,拼成一句。
3.翻译,翻译国外的论文基本不会发生重复,而且从道义上讲也是合理的,翻译也是自己的工作,是为学术做了贡献的。毕竟,那些评你论文的教授们也没打算让你有什么开创性的成果,有自己的工作就可以了。
4.看一遍原文用自己的话去阐述,这也是个好办法,起码自己是完全懂了的。
个人建议用后两种,论文查重系统的设计不是为了查重而查重的,设计的初衷还是希望小硕们尽量原创,设计的原则是“可以放过一个坏人,但决不错怪一个好人”,只要是自已写的或是翻译的,通过就是小意思了。再指说,硕士论文的目的就是让人具有基本的研究能力,好好做还是收获颇丰的。在学位没问题的前题下,还是自已多多原创吧!
网友评论