算法原创:谷歌制造的天使还是恶魔?
作者 杰罗姆
《搜索引擎日报》图片一
2002年,谷歌推出了划时代的“算法新闻”;16年后,谷歌又要搞事情了,他们已经有能力推出“算法原创”,用大白话翻译一下:谷歌的“洗稿机器人”已经发明成功。
2002年谷歌的产品“算法新闻”,其实只能叫作“算法整合”,以算法为基础整合其它媒体、自媒体的内容链接、标题与摘要。这个创新引发了谷歌与全球新闻业的十多年战争;16年后,他们有了更强大的杀器。他们可以通过系列算法抓取、分析、综合你的内容以及你的竞争对手的同主题内容,自己谋篇布局,自己咬文嚼字,“原创”自己的文章。谷歌在这过程中做的仍然只是整合,但这不是把许多文章整合到一个信息流里,而是把许多文章、许多内容整合到一篇独立、完整的谷歌牌文章之中。
这个流程,与日前成为中国数字媒体业众矢之的“洗稿”现象惊人相似。谷歌的这个发明,被称为“洗稿机器人”应该没有问题。至于谷歌会利用这个工具行善还是作恶,现在判断还为时过早。
二
我们先来看一下谷歌“洗稿机器人”的机理。
谷歌的一个算法研究团队,不久前展开了一个实验。他们以各种不同的文档作为撰写维基百科条目的源文件,然后,由一系列算法写出了谷歌版的维基百科条目。
具体的过程是这样的:谷歌利用他们十分成熟的爬虫技术从众多网页中收集有关某个主题的信息,然后,以一种算法从中抽取摘要,识别重要的内容。接着,以另一种算法,将收集并已经经过加工的内容汇总成自然语言的句子和段落,最终创建成文章。
谷歌方面说,他们通过这种方法原创的文章,可以通过人工审核,也就是说,与真人撰写的文章无异。
他们以此项研究成果为基础,发表了一篇并不起眼的论文:《通过多重资料摘要撰写维基百科条目》(Generating Wikipedia by Summarizing Long Sequences )。
三
美国《搜索引擎日报》图片记者罗杰∙马蒂拿到这篇冰冷枯燥的论文,进行了深入的专业解读,在貌不惊人的行文之间,发现了惊天秘密。他的文章标题是《谷歌新算法可以根据你的内容创作原创文章》。
不过,这篇发表于5月17日的文章,好象并没有引起什么关注。“洗稿机器人”一说,是杰罗姆的百分百原创,使用这一概念与定位,请注明出处,请勿以人工或机器人洗稿。开个玩笑啦。
罗杰∙马蒂说:这个算法能够把你和你的竞争对手的网页内容整合成一篇行云流水的文章。这就使得谷歌在面对用户的搜索问题时,可以有机会通过“原创”,整合相关内容提供给用户,而不必把用户发配到第三方网站或者APP上去。
这段话是什么意思呢?
琢磨一下。
四
我们再进一步把谷歌的这项实验展开来讨论一下。这部分比较枯燥,没有耐心者可以跳读,不会影响整体理解。
根据罗杰∙马蒂的梳理,谷歌的原创算法,事实上包括两个算法。
其一,提取摘要( “extractive summaries”)。新算法“萃取”内容的精华部分,同时丢弃内容中不紧密相关部分,通过这个过程,对某一个独立网页中的主题内容进行精加工。以同样的方法,对其它一系列相关内容网页进行同样的萃取精加工。
其二,抽象概要( Abstractive Summary)。这个过程,事实上解决的是组织、改写(paraphrasing)的问题,对于上述已经经过萃取的内容,进行分析、整合,重新遣词造句,依据一定的格式,比如金字塔或倒金字塔结构,输出一篇原创的同一主题文章。
当然,上述算法并不是天衣无缝的。工程师们在研究中发现,通过上述抽象概要的方式输出的原创文章可能带有先天的问题。因为,他们所萃取的内容本身可能包含虚假信息。算法并不能自主地对其所包含的信息进行验证。研究表明,实验中处理的内容中大约有三分之一包括虚假信息。中招是难免的。
因此,他们还必须借助其它算法的力量,来做进一步的修正。
好在这样的问题难不倒人。而这方面的课题也不仅仅是谷歌的工程师们在研究,来自中国大陆及香港的一批学者也在探究,并于2017年发表了一篇有影响力专题研究论文,论文标题是 《Faithful to the Original: Fact Aware Neural Abstractive Summarization 》。
他们的思路可以帮助解决相关的问题。
五
好了,现在,我们可以正面看一下这个“原创算法”,或者“洗稿机器人”了。
原创算法事实上并不能原创。它们并不能无中生有。但是,他们可以有中生有。他们可以通过掌握基本的信息与数据,整合相关材料中的精华要素,相当完整地呈现对于某一个问题的不同视角的看法。这种高效的整合方法,将令人类自惭弗如。
这样的原创算法可以应用于书籍,可以应用于开放数据库,也可以应用于任何公开的网页,当然,也可以应用于无数的新闻网站。
如果将这个系列算法原创工具与现有的谷歌爬虫技术、算法新闻数据库链接,谷歌可以做的事情,可以推出的新闻产品、内容产品,将是革命性的。
谷歌的“算法棋手”(阿尔法狗)已经把全球的最优秀的围棋棋士打得落花流水,最终,谷歌的“算法作家”、“算法记者”,也将把现实中的作家与记者打得满地找牙吗?
随着机器学习的逐步深入,这种可能性无法排除。
六
杰罗姆大约一年半前在《新媒体金字塔》一文中,将所有的媒体机构划分成内容导向,平台导向,算法导向三种模式。第一种模式,是自己做内容;第二种模式,是自己不做内容,提供平台让他人做内容;第三种模式,是在他人的内容之上做自己的内容,用他人的内容做自己的内容,谷歌、脸书、今日头条、微信就是标本。
今天,这个三分法仍然有效,不过,第三种模式 — 算法导向模式,可能会有一波剧烈的进化了。“用他人的内容做自己的内容”很快会有一种创新的形式了。
原来,他们“用他人的内容做自己的内容或者产品”是指,他们以他人的内容为基础推出自己的信息流产品,比如谷歌新闻、News Feed、今日头条兴趣推荐信息流、微信朋友圈等等。现在,他们(现在主要是指谷歌)有机会推出颠覆性的产品:他们自己的新闻与内容,谷歌有能力把他人的新闻内容(目前主要是文本内容)萃取改写成自己的新闻内容,从而推出自己的新闻内容产品。
谷歌目前还没有推出相关的产品或者推出相关产品的计划。但是,他们已经拥有了相关技术,他们何时或如何开始从您的内容中生成它自己的内容,推出相关产品与服务不过只是时间的问题。
如果我们甩开道德评价不说,谷歌的系列算法原创的确是一大创新,可以做出此前无法想象的新闻产品来。当然,媒体行业也将因此遭受此前无法想象的强烈冲击。会不会由此引发一波新的谷歌与新闻业的战争,很难预测。
机器人写稿早已经是现实,而“洗稿机器人”的出现,将使机器人写稿,在更高的维度上进化,引发的伦理争议,也将在更广泛的层面进行。
这是一个让人感觉兴奋的变化,也是一个令人不安的变化。
洗稿人把中国数字媒体搞得人仰马翻,现在,谷歌的洗稿机器人又要来搞事。何去何从,耐人寻味。
-----------------------------
未经授权,谢绝转载
网友评论