查重原理及应对方法.doc_文客久久网wenke99.com

资源描述

1、一、查重原理 1、知网学位论文检测 1为整篇上传，格式对检测结果可能会造成影响，需要将最终交稿格式提交检测，将影响降到最小，此影响为几十字的小段可能检测不出。对于 3 万字符以上文字较多的论文是可以忽略的。对比数据库为：中国学术期刊网络出版总库，中国博士学位论文全文数据库/中国优秀硕士学位论文全文数据库，国重要会议论文全文数据库，中国重要报纸全文数据库，中国专利全文数据库，个人比对库，其他比对库。部分书籍不在知网库，检测不到。 2、上传论文后，系统会自动检测该论文的章节信息，如果有自动生成的目录信息，那么系统会将论文按章节分段检测，否则会自动分段检测。 3、有部分同学反映说自己在段落中明明引

2、用或者抄袭了其他文献的段落或句子，为什么没有检测出来，这是正常的。中国知网对该套检测系统的灵敏度设置了一个阀值，该阀值为 5%，以段落计，低于 5%的抄袭或引用是检测不出来的，这种情况常见于大段落中的小句或者小概念。举个例子：假如检测段落 1 有10000 字，那么引用单篇文献 500 字以下，是不会被检测出来的。实际上这里也告诉同学们一个修改的方法，就是对段落抄袭千万不要选一篇文章来引用，尽可能多的选择多篇文献，一篇截取几句，这样是不会被检测出来的。 4、一篇论文的抄袭怎么才会被检测出来？知网论文检测的条件是连续 13 个字相似或抄袭都会被红字标注，但是必须满足 3 里面的前提条件：即你所引

3、用或抄袭的 A 文献文字总和在你的各个检测段落中要达到 5%。二、快速通过论文查重的七大方法方法一：外文文献翻译法查阅研究领域外文文献，特别是高水平期刊的文献，比如 Science，Nature，WaterRes 等，将其中的理论讲解翻译成中文，放在自己的论文中。优点：1、每个人语言习惯不同，翻译成的汉语必然不同。因此即使是同一段文字，不同人翻译了之后，也不会出现抄袭的情况。2 、外文文献的阅读，可以提升自身英语水平，拓展专业领域视野。缺点：英文不好特别是专业英文不好的同学实施起来比较费劲。方法二：变化措辞法将别人论文里的文字，或按照意思重写，或变换句式结构，更改主被动语态，或

4、更换关键词，或通过增减。当然如果却属于经典名句，还是按照经典的方法加以引用。优点：1将文字修改之后，按照知网程序和算法，只要不出现连续 13 个字重复，以及关键词的重复，就不会被标红。2对论文的每字每句都了如指掌，烂熟于心，答辩时亦会如鱼得水。缺点：逐字逐句的改，费时费力。方法三：google 等翻译工具翻译法将别人论文里的文字，用 google 翻译成英文，再翻译回来，句式和结构就会发生改变，再自行修改下语病后，即可顺利躲过查重。优点：方便快捷，可以一大段一大段的修改。缺点：有时候需要多翻译几遍，必须先由中文翻译成英文，再翻译成阿尔及利亚语，再翻译成中文。方法四：转换图片法将

5、别人论文里的文字，截成图片，放在自己的论文里。因为知网查重系统目前只能查文字，而不能查图片和表格，因此可以躲过查重。优点：比 google 翻译法更加方便快捷。缺点：用顺手了容易出现整页都是图片的情况，会影响整个论文的字数统计。方法五：插入文档法将某些参考引用来的文字通过 word 文档的形式插入到论文中。优点：此法比方法四更甚一筹，因为该方法日后还可以在所插入的文档里进行重新编辑，而图片转换法以后就不便于再修改了。缺点：还没发现。方法六：插入空格法将文章中所有的字间插入空格，然后将空格字间距调到最小。因为查重的根据是以词为基础的，空格切断了词语，自然略过了查重系统。优点

6、：从查重系统的原理出发，可靠性高。缺点：工作量极大，课可以考虑通过宏完成，但宏的编制需要研究。方法七：自己原创法自己动手写论文，在写作时，要么不原文复制粘贴；要么正确的加上引用。优点：基本上绝对不会担心查重不通过，哪怕这个查重系统的阈值调的再低。缺点：如果说优缺点的话，就是写完一篇毕业论文，可能会死掉更多的脑细胞。呵呵。。。三.知网论文检测1、对格式的要求知网学位论文检测为整篇上传，格式对检测结果可能会造成影响，需要将最终交稿格式提交检测，将影响降到最小，此影响为几十字的小段可能检测不出。都不会影响通过。系统的算法比较复杂，每次修改论文后再测可能会有第一次没测出的小段抄袭（经 2

7、年实践经验证明，该小段不会超过 200 字，并且二次修改后论文一般会大大降低抄袭率）2、对比库对比库为：中国学术期刊网络出版总库, 中国博士学位论文全文数据库/中国优秀硕士学位论文全文数据库,中国重要会议论文全文数据库, 中国重要报纸全文数据库,中国专利全文数据库 ,个人比对库,其他比对库, 部分书籍不在知网库，检测不出抄袭。知网库是国家指定的论文检测对比库，国家指定高校论文检测系统为知网学位论文检测系统，该系统是目前效果最好、范围最广的官方检测系统，所有高校都是知网的检测系统，这是教育部出于全国学术不端公平性考虑而实施的。3、关于分段和分章出结果上传论文后，系统会自动检测该论文的章节信息，

8、如果你学校的目录设置符合知网系统内置的分章判断条件，系统就会按章检测，分章出结果，否则会分段出结果。关于分段或分章主要涉及 4 中的阀值。不论是分章还是分段，保持和学校一致即可。4、引用的能检测出来吗？有的同学问：“ 我明明引用了别人的段落或句子，为什么没有检测出来？”也有的同学问：“我的引用标注了出处，为什么还算抄袭？”首先，引用算不算抄袭，与标注出处没有任何关系，引用能不能检测出来，与系统准不准确也没有关系。所有这些都靠系统的阀值来决定。中国知网对该套检测系统的灵敏度设置了一个阀值，该阀值为 3%，以段落（或章节）的字数来计算，单篇文献低于 3%的抄袭或引用是检测不出来的，这种情况常见于大

9、段文字中的小句或者小概念。举个例子：假如检测段落 1（第一章）有 10000 字，那么引用 A 文献 300 字（10000 乘以 3%=300）以内，是不会被检测出来的。若引用 B 文献超过300 字，那么 B 文献分布于第一章中的抄袭都会被红字标注，不管位于第一章何处，即使打断成句子，只要超过 20 字就会被标注。实际上这里也告诉同学们一个修改的方法，就是对段落抄袭千万不要选一篇文章来引用，尽可能多的选择多篇文献，一篇截取几句，这样是不会被检测出来的。关于一些同学问引用的为什么也算抄袭，这里主要是因为知网的阀值问题，高于 3%的统一算抄袭，也就是说引用于抄袭的临界就在 3%之间。一旦你超标

10、，即使你标注了引用也无济于事。所以请同学们注意。我们举例说明：某篇论文第一章有5000 字，那么第一章中，我们就只能引用 A 文献 150 字以下，否则会被系统认为是抄袭。第二章 4000 字，那么我们只能引用 A 文献 120 字以下，否则会被系统认为是抄袭。第三章 8000 字，第四章 7000 字，分别为 240 字以下和 210 字以下，以此类推。综上所述，引用超标的计算方式是按章计算，这与抄袭的计算方式是一样的。5、系统对一句话怎么才算抄袭？一篇论文的抄袭怎么才会被检测出来？知网论文检测的条件是 20 字单位以上的相似或抄袭都会被红字标注，但是必须满足 4 里面的前提条件：即你所引用

11、或抄袭的 A 文献文字总和在你的各个检测段落（各章）中要达到 3%。引用：6、抄袭的修改方式针对标红文字的修改方式除了 3 中提到的外，还有改词、换句、改变描述方式（变原句为倒装句、被动句、主动句等）、打乱段落顺序、删除关键词汇、关键句等。经过实践证明，使用以上方法结合，可有效降低复制比，保证顺利通过。总体来说，我们需要在保证修改后句子通顺的前提下，尽量和原句在字面上保持不同。例 1：例如下句：过热故障中的过热与变压器正常运行下的发热是有区别的，正常运行时的其发热源来自于绕组和铁芯，即铜损和铁损，而变压器过热故障是由于受到有效热应力而造成的绝缘加速劣化，它具有中等水平的能量密度。几乎被标红，说

12、明与相似文献存在重合和高度相似，经过以上方式结合，本句可改为：过热故障中出现的过热容易与变压器正常运行下的发热相混淆，后者是因为其绕组和铁芯会出现铜损和铁损的现象，这是正常运行过程中的发热，而变压器过热故障是受到有效热应力造成的绝缘加速劣化，这里所指的 300 字是一个大概值，并非临界值。引用的数量越低，就越不容易被检测出来。更新以后的 CNKI 学术不端检测系统将这一阀值调整到了 3%，以前是5%，意味着检测系统对引用的要求更加严格，但运用我们后面提到的方法也不是很难。具有中等水平的能力密度。这样修改几乎可以降低抄袭率一半。例 2：在看下面一个例句：3.7.1.2 在透明水杯的清水中放入

13、少量纤维进行搅动，便可以直观地发现纤维呈立体悬浮状乱向分散，且长时间放置都不会有太大变化，说明合成纤维的质量较好；质量差的纤维经搅动后可能分散，但时隔不久便会上浮为一絮状层。质量差的纤维在混凝土的实际配制过程中多不易均匀分散。本段完全被标红，修改方式只有一种，就是打乱顺序，重新组织。3.7.1.2 将少量纤维放入盛装清水的透明容器中，边搅动边观察纤维变化情况，如果合成纤维质量较好，那么就可以直观地看到纤维呈立体悬浮状分散，随着时间的推移，位置也不会发生明显的变化；若合成纤维质量较差，那么搅动的过程中，纤维可能分散，并且容易上浮形成絮状层。质量差的纤维在混凝土的实际配制过程中多不易均匀分散。例

14、3：下句：对施工单位或业主提出的设计变更要求要进行统筹考虑，确定其必要性，同时将设计变更对施工工期和费用的影响进行全面分析，非改不可的要调整施工计划，以尽可能减少对工程的不利影响。修改为：施工单位或业主一旦提出设计变更要求，要进行统筹考虑，考察变更的必要性，同时，将设计变更对施工工期、费用等方面可能造成的影响进行全面而科学的分析，遇到非改不可的变更要调整施工计划，尽可能将其对工程的不利影响降到最小百战不殆：一.如何应对高校论文相似度检测估计是最近学术抄袭的现象过于严重了，现在一大部分高校整了一个论文反抄袭检测系统，用的是 CNKI 知网的论文库，只要你的毕业论文存在抄袭现象，它就会给你检测出来

15、，严重影响了广大学生毕业论文的顺利通过，破坏了社会的和谐。要对付这个系统，首先要了解它的运行原理。通过分析我砸银子得出的检验报告，可以了解到这个检测系统，不是简单的把你的文章和他论文库进行对比，现在的学生也不傻，抄完文章，都是改句话，改个词，加几个字什么的，单用word 查找似的对比方法，肯定查不出来。这个系统缺德带冒烟的地方就在于它是把你的文章按一定字数分段，然后把每段里面的汉字统计下来，跟论文库里的文章进行对比，只要相同的汉字达到一定的比率，就在你文章与库里文章连续重复较多的位置给你画出红线算抄袭了。根本不在乎你文字的顺序，就比如说你把你抄的一个段落整个打散了，每句话分别放在不同的段落里，

16、也全都能给查出来。但这个系统也是有弱点的，首先它有一定的查找范围，也就是它的论文库有限。去年这个系统能检测到 CNKI 知网里的抄袭内容，对从书上和网上抄的内容根本检测不出来。不过今年变化了，根据最新的检测报告，这缺德系统现在连书上的文章也可以检测出来了，网上的东西也可以检测的到。但是从外国网站 dnowload 来的英文文章在翻译成汉语后，还是检测不出来。所以对付这个系统，如果你的学科在自然科学领域，那就简单了，直接去外国的网站找论文，然后自己或者找人翻译过来，把作者名字换成自己，抄上就OK 了。但是社科类学科，尤其是我这个专业的就倒了血霉了，万恶的资本主义国家没有研究这个的，朝鲜估计可能研

17、究这个，但是棒子文我看不懂。这就需要一定的技巧了，在抄文章时，最好从不同的文章里抄取（在检测系统里这叫多元抄取），然后记好自己每短话抄袭的文章，例如 1 段抄自 A 文章，2 段抄自 B 文章，C 段. 然后在论文整体抄袭完毕后，去学校（有的学校不给个人检，比如长春某高校）或者网上花钱检测一下（不要在乎钱，延期答辩带来的损失要远比这点钱多的多）。如果检测系统准确率不错的话，你大部分抄袭段落就会被检测出来，但是要注意不是全部，由于上段提到的那个论文库的问题，很可能你的某段从书上或者网上抄来的文章中的一段就没有被检测出来，那么恭喜你，赶紧把那本书或者网上的那篇文章找出来，尽情的抄吧。而对于已经被检

18、测出来，画了红线的段落，如果受到论文写作需要的制约，无法用其他安全的抄袭文章段落来进行合理更换的话，我们只能是自己改。笨方法就是逐字逐句的改，大面积的更换原句的原有汉字，尽可能降低汉字的重复比。例如这句话：”近几年中央政府相继出台了一系列惠农政策，在减轻农民负担、刺激粮食生产等方面效果明显。”绝对不能简单的更换几个字，调整一下刺激粮食生产和减轻农民负担的顺序，那样改还不如不改，劳时费力还起不到一点的效果。必须得类似这样改成”近些年来，党中央国务院连续颁布了一系列扶农政策，对提高粮食产量、增加农民收入等方面卓有成效。”这么改安全是安全，不过有个缺点，就是太耗费心力了，你要是不多看几本书，还真改不

19、出来，不过话说回来，书要是看的够多，论文谁他妈还抄啊。国外的论文反抄袭软件早就应用了。国内的中文反抄袭软件，08 年年底也开发出来了，目前国内有一些高校和研究机构在试用。之所以试用，而不是全面推广，是因为目前这个软件尚不稳定，而且数据库也需要补充。不过再过两年，高校和研究机构检查论文反抄袭，是大势所趋了。论文需要检测的 tf，可以先检测一下，得出雷同比例，以及红色标志的雷同内容，然后根据下面的原则进行修改，就可以通过了。修改原则：1，反抄袭软件检测到 13 个相同的字，就认为是雷同，所以连续相同的，不要超过 13 个字；2，尽量用同义词替代，比如：损坏= 破坏；渠道 =途径；原理=基本思路；

20、不可见=隐藏；优点尤其突出= 优势尽显无疑3，改变句子的主动被动语态，比如：数字水印为多媒体数据文件在认证、防伪、防篡改、保障数据安全和完整性等方面提供了有效的技术手段。=在多媒体制品的认证、防伪、防修改和传送安全以及完整性保障方面，可以采用数字水印的检测作为有力的检测手段。下面是一个例子，按照这个程度的修改，保证能通过：修改前：目前，数字水印技术(Digital Watermarking)已成为国际信息安全学术界研究的一个前沿方向，为多媒体的安全保存和传送开辟了一条全新的途径。数字水印通过在原始数据中嵌入版权信息，即水印来保证该数据信息的所有权，这种被嵌入的水印可以是一段文本、标识、序列号、

21、图像等各种数字信号。而且这种水印通常是不可见的，它与原始数据紧密结合并且隐藏在其中，可以经历一些不破坏原数据使用价值或商用价值的操作而能保存下来。在需要时，能够通过一定的技术检测方法提取出水印，以此作为判断媒体的版权归属和跟踪起诉非法侵权的证据。数字水印为多媒体数据文件在认证、防伪、防篡改、保障数据安全和完整性等方面提供了有效的技术手段。修改后：当前，国际信息安全领域的一个热点研究，就是数字水印技术。这种技术可以在多媒体的保存和传送中提供一种更安全的渠道。数字水印技术的原理是用水印来保证数据的所有权，即在保存或传送的原始数据中嵌入特定的版权信息。这些被嵌入的信息，也就是水印，可以是各种形式，比如标识，文本，图像，序列号等各种数字信号。并且，这些数字信号在表面是不可见的，并且与原始的数据以各种形式密切结合，当然这种结合不会损坏原始数据，所以数据在使用过程中丝毫不受影响。在使用过程中如果有必要检测水印，则可以通过相关的手段提取出隐含其中的水印，用这种方法来判定原始数据的版权，可以作为法律上侵犯版权的证据。这项技术在某些领域应用前景特别广发，尤其是多媒体数据、制品、文件的认证、防伪、防止修改、保障传送安全和完整性时，优点尤其突出。1 张积家，王娟，刘鸣. 英文词、汉字词、早期文字和图画的认知加工比较J. 心理学报, 2011, (04): 347-363.

展开阅读全文