美文网首页谈写作精选 夏目副编谈写作@IT·互联网
写作 | 原创作者如何对抗抄袭和洗稿

写作 | 原创作者如何对抗抄袭和洗稿

作者: 吴晓布 | 来源:发表于2018-12-29 08:14 被阅读331次
    Photo by Dmitry Ratushny on Unsplash

    本文关键字:抄袭、洗稿、AI辅助洗稿、反洗稿合议、判断标准、流量文、爆文类型。


    读书人的事,能叫偷吗?

    以前读书人窃书可能是为了学问,如今窃稿去赚钱,就是偷。

    洗稿和洗钱相似。

    韩寒的小说里提到过洗钱的来历,古代的银票做出来后,需要由专司银监的官员来签名,签名后才能有效。于是有人仿制银票,苦练签名做到和银监的官员丝毫不差,再把假银票放进水里洗一洗再晾干,这样看上去假银票和真银票几乎一模一样,整个过程叫做“洗钱”。

    上面那段是春秋笔法,历史上洗钱活动最早出现在20世纪20年代,芝加哥的一名黑手党开了家洗衣店,每晚计算当天洗衣收入时,把非法收入混入洗衣收入中,再正常纳税,扣去应缴的税款后,剩下的非法所得成了合法收入。这是“洗钱”一词的由来。

    洗钱这种事情绝大多数人干不了,但是洗稿可以啊。把别人的文章抄过来,加点H2O,再用破壁机打碎重新组织,变成自己的文章。

    几个月前的“差评洗稿“事件,将洗稿这一件事在大众面前曝光。

    写作界最为人不耻的莫过于抄袭和洗稿。抄袭属于法律可以界定的犯罪行为,通常由实质性相似来判定。而洗稿则是抄袭的高级版,高级到法律难以界定。

    任何行业一旦有利益驱动,必然有人打主意。洗稿已经成为一条庞大的产业链,从小规模的个人手工洗稿,到团伙利用人工智能AI工具洗稿,再到大V利用团队洗稿。淘金潮中最赚钱的,往往是制作淘金工具的商人。提供洗稿工具、洗稿服务、洗稿培训已成为黑产的一条龙服务。

    抄袭,一般指未经著作权人同意,又无法律上的依据,擅自将他人作品或者作品的片段照抄、照搬或套用的侵犯他人著作权的行为。

    “洗稿”,一般指采用同义词更换、语序转换、段落变换、增删非关键词语等手法生产内容,导致与他人作品主题、观点、大纲、素材、逻辑、结构、表达、描述高度相似,违反平台运营规范的行为。——来自于微信公众平台的定义

    反洗稿最大的问题在于如何判断是洗稿还是撞题。

    1.稿是如何洗出来的

    1.1. 为什么判断洗稿有难度

    洗稿不同于抄袭,抄袭容易界定,洗稿不容易鉴定和判断。

    这么说你也许能理解——二手知识都可以理解为知识源头的解读和延伸,三手知识或者N手知识就和洗稿很接近,怎么判断是原创还是洗稿。

    下面从洗稿的层次和操作手段来介绍。

    1.1.1. 洗稿的层次和操作手段

    洗稿层次和水平也反映了个人逻辑思维能力的高低。

    越高级的洗稿判断难度越高。

    1)初级洗稿

    利用信息不对称来实现洗稿。

    信息不对称指的是不从国内网络上抄,而是从实体出版物,如书籍、杂志上抄。在移动时代,大多数人碎片化阅读,极少阅读实体书籍和杂志,给了洗稿者可乘之机。

    洗稿者利用OCR工具扫描实体书上的文字——例如OCR笔,整段进行复制。大段抄袭文字,中间夹杂一些自己的内容,或者是两头加上自己的内容——前面一段多是自己对复制内容的介绍,后面一段多是加几句总结。

    将音频、视频内容转文字。

    这是一种笨办法,边放边写文字,通常雇一些网络闲人就可以干这事情。把付费平台的音频、视频教程转成文字,然后比原创平台低很多的价格出售。买这些内容的,其中不乏洗稿者,用来做洗稿素材。

    利用人工智能工具来洗稿。

    有些贼懂得工欲善其事必先利其器的道理,会先找来NLP洗稿工具,俗称的自然语言处理工具。NLP是(Natural Language Processing)的缩写,属于人工智能AI的子集,通过语义分析、文本发掘来帮助洗稿。NLP工具可以进行相似词语替换,将句子换成意思相近但表达方式不一样。

    目前已有这样的工具被开发出来,从各大自媒体平台包括公众号、头条、百家号、简书、豆瓣等采集原创文章,可以根据阅读量、点击量等自动排序,最后生成伪原创文章,最后还可以帮洗稿者审核后一键发表在多个平台上。技术本是无罪,有罪的是利用技术来助纣为虐获取非法收入的人。

    不用担心,道高一尺魔高一丈,洗稿者用NLP来洗稿,平台或维权机构用NLP来判断洗稿。两者之间谁高谁低,无非是看利益多大。平台如果没有触动切身利益,不会花太多资源和精力在上面。流量平台为了利益睁一只眼闭一只眼,广告主也开心。

    初级洗稿者还停留在体力劳动阶段。

    这些初级洗稿尤其是工具洗稿的文章大多有些共同的特征,标题党、口语化、文笔极差。通常存在于流量号中。

    据说那些要你花钱购买的人工智能伪原创写稿软件,弄不好是将你的稿件通过谷歌翻译成英语,然后再用百度翻译成中文——这让我想起了智商税。

    2)中级洗稿

    将一篇文章的中心思想和大纲整理出来,换一种文字描述,按自己的顺序和理解补充内容。

    中级比初级高一些,毕竟工具仿写的还是有迹可循。

    中级洗稿就像将一个人整容成另外一个人。光是换发型、衣服、外饰、贴个假面具必然不行,这属于易容,人脸识别这一关都过不去——你总不能改变双眼瞳孔间距吧。

    改变身高,改变胖瘦,改变双眼距离和五官特征,这样看上去就像两个人。

    3)高级洗稿

    将数篇相同事件的文章,按自己的逻辑结构来个大乱炖,组合在一起。

    光洗一篇文章,还是容易被发现。多洗一些类似主题或事件的文章,难度会大大增加,可以博众家之长为己用。

    某些大V(大V通常都有团队),采用这种模式较多。

    判断洗稿的难度在于,你无法判断作者的主观意愿是否有意或无意。在有些作者看来,经过我的加工就是我的原创。

    这里存在一个撞题的可能,这时就需要看被投诉者的历史信用来辅助判断。

    1.1.2. 判断的基数太大、审稿效率有限

    大平台由于每天发布的文章属于海量,靠人工审核不现实,所以都是靠机器AI算法来审核。

    而机器算法依靠深度学习和NLP算法来进行语义分析,受限于平台投入的资源和精力,以及算法水平,对于初级洗稿目前还仍有大量漏网之鱼。

    一旦遇上用户投诉,人工客服才会介入其中。

    对于一些内容粗浅的流量文,尚且相对容易分辨,但一旦遇上有一定思想深度或者技术性的文章,人工客服也不一定能判断出来,这对客服的水平和能力要求很高。


    2. 微信公众平台引入洗稿投诉合议制进行反洗稿


    微信公众平台尊重并鼓励原创,针对影响创作者积极性且实践中认定存在争议的“洗稿”问题,平台尝试设立合议机制,试运营期间争议内容将交予“洗稿投诉合议小组”成员评定并在合议后得出结果。自本规则发布之日(2018年12月3日)起,在微信公众平台新发表的内容,在微信手机端的投诉受理范围扩大至“抄袭/洗稿”,平台将根据投诉情况进行综合判定和处理。——内容源自于微信公众平台公告

    我收到微信平台的邀请才知道有这么回事。

    “洗稿投诉合议小组”目前主要由在微信公众平台坚持原创且无抄袭违规记录的个人作者组成。对于坚持原创、无抄袭违规历史的原创作者,平台将持续通过微信服务通知方式邀请其加入”洗稿投诉合议小组”,暂不支持自主申请。——内容源自于微信公众平台公告

    微信公众平台建议的判断洗稿标准:

    (1)看主题和观点

    就相同的主题表达基本一致的观点。

    (2)看素材和细节

    使用相似的非新闻素材或网络公开素材,包括文字、图片等。

    (3)看行文和逻辑

    雷同的表达方式或逻辑,包括内容结构、人物关系、推演思路等。

    (4)看内容产生方式

    采用同义词更换、语序转换、段落变换、增删非关键词语等方式。

    合议小组是怎么工作的:

    平台将从”洗稿投诉合议小组”随机邀请一定量的成员参与“洗稿”投诉合议,当24小时内回收的结果大于等于10份,该合议有效,当24小时内回收的结果小于10份,将从未参与过本次“洗稿”合议的成员中随机补推邀请一次,若仍达不到有效的结果份数,则该投诉退回。——内容源自于微信公众平台公告

    这将取决于合议小组成员的积极性,而且规则应该会随着运行次数增多,而逐渐修改完善。

    由于“洗稿”界定的复杂性,当结果份数有效情况下,若大于等于70%的”洗稿投诉合议小组”成员认为被投诉方“洗稿”,按照合议的多数意见认定为“洗稿”。反之,若达不到70%的规则比例,则不能认定为“洗稿”。——内容源自于微信公众平台公告

    很好奇这个70%的标准如何定出来的,如果恰好是69呢,就不算洗稿了么。

    经合议认定为“洗稿”,“洗稿”内容将被替换为原创作者的内容,详细的合议结果也向用户公开展示。同时,也会对该违规内容对应的帐号进行相应处理。

    温馨提示:若被投诉方在收到投诉通知后承认洗稿或自行删除内容,默认认定为“洗稿”,违规内容被清除后,平台会仍对该违规内容对应帐号进行相应处理。——内容源自于微信公众平台公告


    对于错判后的处理,微信公众平台尚未说明。我猜测应该是后续会根据试运行的情况进行增加。可能平台认为,错杀也比漏杀好。

    3. 作者如何对抗抄袭和洗稿


    3.1. 有意识的留下个人印记、数字水印

    有大V为了防止有人抄袭或洗稿,会在文章的某些地方,故意留下个人的印记——说起来也简单,将词语顺序颠倒(汉语颠倒顺序并不影响阅读),例如将“存在”改成“在存”。或者发明一些个人杜撰的名词和概念。虚构一些不存在的地点和人名。

    3.2. 委托版权维护机构

    有总比没有好,这些版权代理机构还能通过帮你维权赚到钱。常见的版权保护机构,请自行搜索。

    3.3. 不要写热点,避开流量文类型

    查理芒格说过,如果我知道哪些地方可能会置我于死亡,那我就不会去。

    洗稿高发地,都是追热点的文章。想一想就能明白,只有热点文章才能吸引流量,洗稿者洗稿的目的是为了获取流量从而获利。

    主题越高端、小众的文章是洗稿者会避开的类型,这类文章原创都没有多少人能看懂并且欣赏——我从来没有看过《七星瓢虫在经济周期中的意识形态变化》被洗过。

    流量文的类型通常包含:

    1)热点事件解读型,这种文章对热点事件(社会、娱乐)进行解读。低端的解读文章只是换一种方式来描述,停留在表面层次。高端的解读文章会上升到道德、正义、哲学层面。无论哪一种,都希望能激发读者的共鸣或者煽风点火,从而转发获得更多流量。

    2)情感鸡汤或者毒鸡汤型,这类文章里首先抛出一个身边的人的故事,将人性极端化、低俗化,吸引一大部分人的共鸣,然后再辅以一些伪心理学名词来解释。

    3)专供心智不成熟群体型,这类文章观点偏激、片面,只说结论缺乏证据及推理过程。心智不成熟指缺乏批判性思维,被认知偏见牵引,情绪容易激发。这一类人在QQ时代最喜欢转发一些“不转不是中国人”类的文章。

    4.写在最后

    如果我们不站出来为反洗稿贡献自己的力量,那么最终劣币会驱逐良币,打击原创作者的热情,没有人愿意再写原创文章,网络上充满各种内容雷同、质量低下的文章。

    你希望看到这种情况吗?

    简书已经开始试运行投诉洗稿合议小组——简书试运行抄袭&洗稿举报新机制的公告

    你是如何看待洗稿以及如何反洗稿呢?

    欢迎在评论区写下你的想法。

    相关文章

      网友评论

        本文标题:写作 | 原创作者如何对抗抄袭和洗稿

        本文链接:https://www.haomeiwen.com/subject/gptvkqtx.html