我所说的一切都可能是错的!
即使你赞同我的观点,你的生活也不会因此有任何改变!
除非——你采取了相应的行动。
(这是书先生在简书的第110篇原创文章。本文约2300字,请花5分钟阅读。)
这段时间,我的朋友圈里不少人在转六神磊磊揭露周冲“洗稿”的文章。虽然六神磊磊在文字上还有所克制,但我完全理解他的愤怒,因为我自己也深受其害。
六神的文章被周冲七改八改,变成了她自己的,然后被堂而皇之地挂上原创的标签。我的文章多是专业向,洗稿比较困难,所以基本上都是被原文转载,但是既不标明作者,也不标明出处。下面几个截图都是版权骑士帮我搜索到提醒我的,其它版权骑士没有检索到的,我就不清楚了,自己也没有时间去关注。
如果这个阅读量是真的,那可比我的阅读量大多了 这个公号把我的标题改了一下,加了个what!。准确的表达出了我的心情,what? 这个估计又是抄袭上一个的,连名字都一样。或者反过来,是上一个抄袭这一个。 这篇文章在我的公号阅读量近30万,也是被转载最多的一篇。这个信雅达翻译做得事情一点都不雅啊!知乎也有人抄袭我的文章,比如一个叫“兰陵主人”的,直接复制我的文章去回答别人的问题,还骗了不少点赞数。关键这人脸皮特别厚,复制粘贴别人的东西,居然还要在前面加上一句“码字很累,有朋友喜欢看的话再继续写吧”。你码字了吗,就很累?
QQ图片20170308170215.png更有甚者(看下图),他还要“放大招”(好吓人,我极度怀疑发大招这个词也是抄我的),因为这么多知乎小伙伴喜欢他写文章。要点脸,好吗?是喜欢看你的文章吗?是喜欢看我的文章好不好!经常看我文章的人都知道,抬头的几句disclaimer就是我的标签,他也原封不动的抄下来。
QQ图片20170308170521.png好在我有一些粉丝经常逛知乎,发现了这个李鬼,一起举报,最终知乎封了这个号。
我要用专业来做点什么
发现一个、解决一个倒不失为一个办法,但是效率太低,效果也只是聊胜于无。像这样原文抄袭的还可以机器检测,但像那种深度洗稿的,除了道德谴责,现阶段似乎也没有更好的处理方式了。
我决定改变这种现状,用我的专业知识。
我现在做的事情,一句话概括就是“基于语料库技术的话语分析(corpus-based discourse analysis)”。这个专长非常适合用来向“洗稿”开战。那么,这场仗怎么打呢?
理由和武器
首先,宣战要有个理由,即为什么要打?为什么我们一定会赢?为什么要打可能不需要再赘述了,我相信,凡是认真原创的自媒体人和想看到真正有思想文章的读者都会支持这一仗。所以,我重点说一下,这一仗为什么一定会赢。
每一种文体都会有独特的文本特征(feature),且可以被量化,比如平均句长、词汇密度、词性分布、动词类型分布(Systemic Functional Grammar)、语篇连贯性方式分布(discoursal grammar)、人称分布、语态分布等等。
用英文来举几个简单的例子说明一下:
口语对非谓语动词的使用要明显少于书面语,前者会更多使用复合句。从连贯的紧凑程度看,非谓语动词 > 从句 > 复合句。越是正式的文体,在连贯方式上越倾向于使用更紧凑的方式。有意思的是,我一位老师发现,英语整体上连贯方式是往紧凑发展,不知道是不是人们越来越聪明还是越来越懒了。有兴趣的朋友可以看下我老师的这本书:
Green, C. (2016). Patterns and Development in the English Clause System. Singapore, Singapore: Springer.
学术文体对被动语态的使用远远多于其它文体。在其它文体中,被动语态一般不会超过10%的比例,而在一些科技论文中,最高可以达到30%。
说来大家可能不信,有时候一个lemma(不知道这个词中文怎么翻译,反正就是指你查字典时看到的那个单词,它的曲折变化——曲折不是派生——产生的词都来自同一个lemma)就足以把一个文体和其它文体区分开来,而且还不是专有名词哦。近来,我一直在做学术语体中的情绪词分析。我发现,在表示惊讶时,只有学术文体中否定的比例可以达到接近40%,而在其它文体中,否定比例最多不超过20%。这种显著的差异背后肯定有认识论上的解释。
surprise在COCA中的分布从上面的例子可以看出,只要找到合适的特征,大概率可以把一种文体和其它文体区分开来,而且这种特征是计算机可以自动识别的,这就可以为自动检测“洗稿”提供理论依据。
单一特征不够,就多特征分析。北亚利桑那大学(Northe Arizona University)的Douglas Biber是这方面的专家,他创造的multifeature / multidimensional(MF/MD多特征/多维度)语篇量化分析方法久负盛名。我对他的理论和方法还有点了解。
“洗稿文”可以算是一种文体,而且是一种新兴的文体。它在生产时,作者的思维过程肯定和原创者是有区别的,这种区别大概率在文本特征上会有所体现。当代的语言学研究为找出这些特征提供了充足的武器,接下来,我们需要的是粮草。
粮草
数据就是粮草。对语言分析来说,语料库就是粮草,高质量的语料库意味着高质量的粮草。现在,我需要分析“洗稿文”的文本特征,首先我需要大量的“洗稿文”。显然,我现在没有办法直接搜索出洗稿文,如果可以这样做的话,这场仗已经没有必要打了,因为我们都可以通过技术手段检索出洗稿文了,还打什么呢?
为了建库,我们需要搜集能够被确认为洗稿文的文章。现阶段,显然这只能靠人工确认。这是对“粮草”质量上的要求。
粮草不但质量要高,而且数量也要够。如果能够搜集到100篇洗稿文,平均每篇2000字,就可以建一个20万字的语料库,足够做一个有意义的分析了。但是如果数量不够,就很难发现规律。显然,靠我一个人偶尔看到一两篇,数量的要求是远远难以满足的。
所以,我现在借此文向社会众筹“粮草”。如果你偶然发现有文章是洗稿的嫌疑,请将原文和洗稿文的链接(注明哪一个是原文,哪一个是洗稿文)或者文章发到邮箱languagelearning@qq.com。我相信,众人拾柴火焰高。一个人做起来似乎是不可能完成的任务,一群人做起来可能非常容易。这场仗,我决定打了,粮草就靠你们了!
打击洗稿,支持原创,让我们共同努力。
再发一遍邮箱地址:
(P.S. 粮草多多益善,让更多人看到这篇文章,就可能有更多的粮草,谢谢!)
网友评论