「训练人工智能来辨别裸体比你想的更难。」
戍译是一项专注国外故事与时评的译文栏目,译者精选有趣、深度的国外文章进行翻译。本文译自The Verge网站2019年1月30日文章,作者Bijan Stephen。
上月初1,汤博乐宣布将禁止发布色情内容。在新政策生效约两周后(12月17日),一系列潜在问题迅速扑面。在政策布局的同时,汤博乐为监管第一波需要修改的内容而选择的人工智能系统开始在全站45.54亿博客与1682亿帖子中将诸如花瓶、女巫、鱼类与其间各类非色情元素误标为色情内容。
在尚未弄清汤博乐是采用第三方还是自创的自动过滤机制时——这家公司就此拒绝回应——很明显的一点在于,社交网络已被内部政策与技术弄得两头难。例如,该站对“女性露乳”与艺术性裸露问题的立场不一致,这些都是针对具体情况的决策,表明汤博乐甚至不确定它到底想从这个平台禁止什么。
「私营公司如何界定它所认为的淫秽内容?」
在社交网站上,难以及时屏蔽有伤风化的内容是因为分辨起来非常困难。辨别淫秽作品是个空头陷阱2:时间回到1896年左右,美国首次通过法案规制淫秽行为。1964年的雅各布夫妇诉俄亥俄州案3是个关于俄亥俄州是否能禁止放送著名的路易-马勒导演的电影的庭审案件,美国最高法院出台了或许是在今日硬核色情内容领域中闻名遐迩的法令——大法官波特-斯图尔特在他的同意意见中写道:“我今天将不会试图进一步界定我所理解的在速记描述中被采纳的材料,或许我永远也无法成功地深入浅出的做到这一点。但我能一眼辨出,本案所涉电影并非如此。”
在机器学习算法上也有与此相同的困难。这也是称为Picnix的一家售卖定制化人工智能科技的公司首席执行官布莱恩-德洛奇正尝试解决的问题。他们的其中一款产品叫Iris,它如德洛奇所言,是“帮助不想在生活中接触色情内容的家庭成员”而专门针对色情内容进行检测的客户端软件。他向我指出,另一个问题在于色情内容无所不在,而色情与非色情内容有着共同特征。一张在海滩聚会的照片可能因其模凌两可而非存在比一间办公室照片中更多的皮肤而被屏蔽。“这是为何训练出一种作为广义上通行的图像识别算法如此困难的原因,”德洛奇说,“特别在于当作品变得连人类都难以定性时,机器学习也变得困难。”假如人们不能在是或不是色情内容这一问题上达成共识,那又如何能去期待一部计算机能悟出其中的差异呢?
为训练人工智能辨别色情内容,你首先要用海量的色情内容输入。那它们如何获取?“人们要做的第一件事就是从知名色情网站上下载大量文件,”一家称为Lemay.ai,以为客户制造人工智能过滤器为业的初创公司合伙人兼首席技术官丹-夏彼洛解释道,“但这是一处法律盲区。打个比方,如果你以他人的内容作为训练资料,那你享有对它的物权吗?”
在从你喜爱的色情网站得到训练数据后,下一步是分解那些视频中所有的非色情部分来确保那些你要使用的部分“都不存在色情元素,比如一个人端着个披萨盒。”平台通过向在美国外的人们付款来让他们标记内容。这种工作廉价而乏味,和你每次填写验证码的工作一样。“他们就单单是一遍又一遍地检索与标记‘这是色情内容’或‘那是色情内容’。你只能过滤一小部分,因为它们如今已被放上太多标签。”他说。如果你使用以自己指定不看且定性准确的图片建立大数据库来训练,那过滤效果会变得更好。
「训练人工智能过滤成人内容如同给婴儿看大量色情内容」
“大多数时间,你过滤的并非仅是色情内容,而是接近色情的内容,”夏彼洛说。“比如过滤这些人们上传的诸如一张配上联系电话的女生照片等伪造出来的个人资料。”此处他提及到了性工作者的拉客之举,但那很容易变性为存在法律争议的其它行为。“那并非色情内容,但是你在平台上不愿看到的,不是吗?”一个优秀的自动过滤器是由数以百万计——如果不是上千万的话——的精确定性图片或内容训练出来的,这意味着人们大部分的努力都投在了建模上。
“这就与对幼儿与成年人不同的分辨力相似,”一家为企业客户处理不同种类图片过滤,名为Clarifai的计算机视觉技术初创公司创始人兼首席执行官马特-泽勒说到。“之所以这样说是因为我们在几个月前创生出了一对婴儿(算法)。他们对这世界一无所知,以为处处精彩。”你要去给婴儿(算法)展示大量内容来使他们学习周围世界。“你需要数以百万计的样本,但一位成年人——现在我们已经建立起了如此多与世界有关的内容,并了解了它的运作机制——我们只需举出几个例子就能学到些新东西。”他说。今天,诸如Clarifai这样的人工智能过滤公司已经成熟。他们有着一大批认知世界的基础数据,也就是说他们知道何为猫狗、何为或不为树木,以及更主要的,了解何为或不为色情内容。泽勒的公司运用自己的模型来训练一批新的人工智能为他们的客户服务——因为原始模型已经数据过载,定制化版本只需要客户端里的新数据来恢复运转。
要算法去将一切拨回正轨依然太过艰辛。在色情图片清晰可辨时,它们可以被很好处理;但以一间办公室为比较,分类者可能因一则内衣广告裸露了更多皮肤而误标为色情内容4。这意味着分类者们要专注于那些模凌两可的样本,优先筛选出难以分辨的模型。这是最难的工作之一吗?
“动漫色情作品,”泽勒说,“我们的初代色情内容检测器并未用任何动漫色情图片来训练。”大部分时间人工智能会失效,因为它辨认不出“变态”是怎样的内容。“因此在为客户提供服务后收到了一大批并入模型的用户数据,从而在不影响识别现实世界照片的同时,出色地提升了人工智能对动漫图片的识别精确度。”泽勒继续解释,“你根本不知道你的用户正在做什么。”
用于检测色情内容的技术也可被用于检测其它内容,而这些检测机制下的技术运用的灵活性非同寻常。它关乎的问题比检测绘制出的女性胸部更宏大。从长远来看,它将被广泛用于新闻社进行自动化评论检测——这从Alphabet’s Jigsaw5的角度就可略窥一二。Jigsaw公司的首席联络官丹-凯瑟琳告诉我在这一愿景实现前,由于人类检测员一天工作能力有限,在所有收到的评论中纽约时报每日只能选出其中的10%进行发表。他宣称,Jigsaw公司的这一产品使这一数字翻了三倍。检测软件与图片分类的过滤机制相似,只是它是用来筛出恶意评论6——纽约时报定义为容易引战的评论——而非裸体图片。Facebook运用同种自动过滤机制来识别与恐怖主义有关的自杀帖子与内容,而这个公司早已尝试过运用这一技术在其庞大的平台上甄别假新闻。
这一切依然要依靠人类监管才能正常运作,因为我们越来越精通写出含混不清与真知灼见的文字了。泽勒告诉我他并不认为自己的产品造成了任何人失业。算法就如他指出的,是意在解决互联网领域的“范围界定问题”。一家与Clarifai协作的婚恋网站使用他家产品来自动化监管网站内容,从前负责审查照片的人类编辑被调往了更明确的标签化工作任务中。那并非不重视现实中人类在自动化处理上的付出:人们必须对人工智能进行训练、进行内容分类与贴标,这样人工智能才能分辨出哪个相关或哪个不相关。这样的工作可能会导致创伤后应激障碍,因为看着人类能想象到的一些最糟糕的画面与视频是一项残酷的工作7 。
因此将自身主要业务投入于用越来越多的数据训练出愈加优秀的分类软件的公司推出现成与定制方案是内容审查的未来,与Stripe and Square为不想进行内部研制企业客户提供现成支付方案、将自身建设成一处网站托管地的亚马逊网页服务(AWS)以及泽勒的Clarifai、德洛奇的Picnix与夏彼洛的Lemay.ai这些初创公司一样,他们都在争夺围绕在线内容规制的一站式解决方案的高地。Clarify已有为iOS与安卓准备的软件开发包(SDK),泽勒说他们正花心思让他们的产品在物联网设备上运作,但事实上他的意思是想让他们的产品在或是人工智能优化芯片或是有足够处理资源的每一部设备上运作。
「一切依然依赖人类监管才能正常运作」
Lemay.ai的丹-夏彼洛满怀希望。“它就像任何技术一样,被创造出来并不代表着因此止步。”他说。“所以我不认为自己会仅仅因为一家公司的某一次布局而觉得不满意。”但它们会如此变得愈来愈好而脱离人类监管自主运作吗?那还是前路茫茫。“这儿(没)有一些人藏在过滤器里筛选每张图片,”他开玩笑说,“你需要从某个地方获得训练数据,”那就意味着这儿总会有人类因素介入。“这是件好事,因为它让人们变得温和有度。”
另一方面泽勒觉得,总有一天人工智能将自主监管一切事情。“最终,一大部分需要人类介入的事会消失或只是在监管裸体内容上消失。我认为一大批人力将转向当今人工智能力所不及的事,如高阶推理、自我意识这些为人类所有的能力。”
识别色情内容是其中的一部分。识别它对人们来说是一项微不足道的任务,但训练算法分辨其中的细微差别要难得多。找出过滤器何时将图像标记为色情或非色情的阀值也是困难的,而且是由数学控制的。这一函数被称为精确召回曲线,它描述过滤器反馈的内容之间的相关性,但由人调节它的敏感度。
正如艾莉森-亚当在她1998年的著作8中所言,人工智能的意义在于“模拟人类智力的某些方面”,不论是在学习、四处走动还是与空间、推理或语言运用交互。人工智能是如实反映我们看待世界的一面有瑕疵的镜子,而色情内容则映射出在人与人之间单独在一起时发生的事:此中有真意,但只是社会的一个侧面。
1、指2018年12月。
2、经济学词汇,原意为市场主流资金通过刻意将股票呈现颓势,诱使投资者因恐慌而抛售股票。此处意为真假难辨。
3、Jacobellis v. Ohio,见https://en.wikipedia.org/wiki/Jacobellis_v._Ohio
4、据泽勒透露,比基尼和女士睡衣分辨起来比较难
5、前身为Google Ideas,谷歌公司的造梦机。
6、在文字中识别恶意评论与在图像中识别色情图片一样棘手
7、如美国纽约时报的内容审查员因工作太单调且接触的负面内容太多而患上这一症状而将雇主告上法庭。见https://www.nytimes.com/2018/09/25/technology/facebook-moderator-job-ptsd-lawsuit.html
关于创伤后应激障碍,请见:https://baike.baidu.com/item/创伤后应激障碍/5445960?fromtitle=PTSD&fromid=4804577&fr=aladdin
8、Artificial Knowing: Gender and the Thinking Machine,暂译《人工智能:性别与思维机器》。
网友评论