美文网首页嵌牛IT观察
漫画,让AI头疼的问题

漫画,让AI头疼的问题

作者: 大鲤子 | 来源:发表于2017-11-23 13:18 被阅读0次

    17101212468 黄翊杰

    转载自http://www.zishu010.com/z/newdetail/9811903.html,原文标题“终于发现一个AI替代不了的工作——画漫画,因为AI看不懂漫画”,原始文章发布在微信公众号“脑极体”(ID:unity007),作者:脑极体。

    【嵌牛导读】:我们经常讨论一些AI对我们生活造成的影响和改变,讨论中更多的是关注其可能会对我们这个社会系统带来的负面影响和威胁,但其实目前的AI水平仍是停留在低智能的机械水平上,比如,AI拿漫画就一点办法没有。

    【嵌牛鼻子】:二次元,漫画家,人工智能

    【嵌牛提问】:漫画是一种人类独有表述能力的体现,还有哪些方面像漫画一样可以为难一下AI?

    【嵌牛正文】:

    AI工程师的很大一部分工作就是替AI“带路”,然后告诉人类,你们的这项和那项工作都要被AI替代了。

    一直以来,人类似乎都站在一个毫无还手之力的弱势地位,或许未来真的像一些悲观者想象中那样,我们有AI司机、AI售货员、AI诗人,但人类自己却成了可怜的乞讨者。

    直到今天,他们第一次发现有一项工作AI在一段时间以内都无法超越人类,而这次胜利属于二次元——不会被AI代替的工作,是漫画家。

    连漫画都看不懂,谈什么毁灭世界?

    漫画家不会AI代替的原因很简单,因为马里兰大学的一位教授进行了一项研究,最终发现AI根本看不懂漫画。

    以上是一则非常简单的四格漫画,对于人类来说理解起来非常容易:小猫在思考创作素材,然后发现了小狗,要求小狗讲个笑话,小狗说“你很漂亮”导致小猫非常愤怒。

    实际上,在最后一个画面中,小狗没有入镜,而“你很漂亮”本来是表扬,要和上一个画面中的“笑话”连接起来,才能解释出小猫的情绪。

    对于AI来说,理解这些呈现在画面之外的信息,简直太困难了。

    在马里兰大学的实验中,研究者搭建了一个由120万张漫画画格组成的数据集,并提取出了每个画格中的文本,利用LSTM模型,希望AI能对漫画进行一个连贯的了解。

    关于LSTM(长短期记忆网络)此前已经介绍过很多,这一模型的特点就是加入了记忆的概念,可以处理和预测时间序列较长元素。虽然在长文本、机器翻译等等方面表现的都不错,但在看漫画这件事上,LSTM彻底挫败了。

    在经过大量训练后,研究人员给了AI一组以前没见过的漫画,要求AI理解并预测下一个画面中的文字信息或画面内容,结果AI的成绩一塌糊涂。而人类的预测正确程度,通常能达到80%的正确率。

    视觉叙事?何必强人工智能所难

    严格来说,漫画这种东西属于“视觉叙事”——把信息隐藏于图像之中。同样是视觉叙事,AI理解电影就比理解漫画容易的多,电影的主角是人,而人脸长的都是一个样子,想要训练AI读出人脸表情、识别情绪是件很简单的事,更何况电影还会有详细的剧本。

    但漫画最大的特点,就是视觉上不具有连贯性。就像上文的四格漫画一样,第三张图小狗还在画面中,第四张图就不在了。人类可以很快的理解到,名为淡定狗的小狗扔下一句话就淡定的离开。可对于AI来说,读出这种在画面和文字之外的信息实在是强人工智能所难。

    其次,不同漫画的绘画、叙事风格迥异,对于AI的训练来说也是个难点。简单的四格漫画中,每一格的场景都是相同的,可在其他漫画中,可能这一格是打斗的场景,下一格就是一张愤怒的人脸。能看懂四格漫画AI,再去看那种有镜头切换感的漫画,也是一头雾水。至于画风方面,不同漫画家对于人脸描绘方式都有很大差异,换成AI来理解,难度又会加大了。

    还有一点,视觉叙事这件事是建立在“逻辑”和“常识”两个概念基础之上的。比如小猫说讲个笑话,小狗说“你好漂亮”,理解这个情节就需要“你说我漂亮是笑话=你说我丑”这一基础的逻辑。又比如哆啦A梦中常见的老鼠梗也需要“猫通常不怕老鼠”这一基础常识。这些东西对于人类来说都很简单,可是AI是不具备这些常识和逻辑概念的,我们也不能像编百科全书那样,把这些概念灌输到AI的大脑之中。

    围棋界的大手,到了甄嬛传里也是一集死

    其实结合AI在围棋领域的胜利和在漫画上的失败,我们可以看出,AI在完全信息信息领域中的表现和不完全信息领域中的表现完全不同。

    完全信息本来是经济学中的一个属于,意思是参与者可以理解整个市场的所有信息。在这里,我们可以看做一项工作的数据集。在围棋这项工作中,所有的信息都可以归纳为数据集:游戏的规则、每一步的打法。可在漫画中,我们最多能把画面中做上详细的标注,把文本信息都提取出来。可隐藏在图片文字之外的逻辑关系、常识等等只可意会不可言传的东西,是无法向AI提供的。

    而AI做的最差的,就是read between the lines。

    以此类推,AI在戏剧、歇后语、四国军棋的暗棋(一种包含了欺骗的军旗玩法)包括谈恋爱等等一切充满了不完全信息、欺骗与反欺骗、解读意象、常识和逻辑的游戏中表现都不会太好。

    这么看来,AI有点像《三体》里初期的智子,不会隐藏自己的想法,也不能明白隐瞒、欺骗这种概念。所以,我们真的不必对AI的胜利感到恐惧,它会是办公室里人缘最差的那位同事和后宫里一集死的路人,某一项能力的突出并不能弥补它在不完全信息方面的短板。更何况意象、类比、反讽、隐喻这种东西,是人类最擅长的手段。

    我相信,未来世界最好的样子一定是人类和AI各司其职,做各自最擅长的事情。在视觉叙事这类AI特别不擅长的事情上,它们依然能给人类提供很多帮助。

    比如用生成对抗神经网络创造人物形象、用监督学习+卷积网络来为线稿上色、甚至开发一款会自动放大文字的漫画阅读App。这些并不是幻想,而是正在发生的现实。当这些繁复的机械劳动被AI代劳后,我们也就能更多的投入到自己擅长的事情中来:利用不完全信息环境讲好更多故事,让这个世界保持应有的趣味。

    相关文章

      网友评论

        本文标题:漫画,让AI头疼的问题

        本文链接:https://www.haomeiwen.com/subject/rblzvxtx.html