有一场革命正在进行,你会通过条纹了解它。
今年早些时候,一群伯克利研究人员发布了一对视频。其中之一,一匹马在铁链栅栏后面小跑。在第二部影片中,这匹马突然出现斑马的黑白图案。执行并非完美无瑕,但条纹十分适合马匹,以至于它将马匹抛入混乱中。
将一匹马变成斑马是一个很好的噱头,但这并非全部。这也是机器学习算法重写现实的力量的一个标志。例如,tinkerers使用斑马鱼工具将黑熊的照片变成可信的熊猫照片,苹果变成橘子,猫变成狗。 Redditor使用不同的机器学习算法来编辑色情视频,以表现名人的面孔。在一家名为Lyrebird的新创业公司,机器学习专家正在从一分钟人声样本中合成令人信服的音频。开发Adobe人工智能平台的工程师称为Sensei,它将机器学习融入各种突破性的视频,照片和音频编辑工具中。这些项目的起源和意图是截然不同的,但它们有一个共同点:它们制作的人造场景和声音看起来非常接近真实世界的实际镜头。与之前使用AI生成媒体的实验不同,这些外观和声音都是真实的。
这种转变的技术将很快将我们推向新的创意领域,扩大当今艺术家的能力,并将业余艺术家提升到经验丰富的专业人员水平。我们将寻找创新的新定义,将伞扩展到机器的输出(We will search for new definitions of creativity that extend the umbrella to the output of machines.)。但是这种繁荣也会有一个黑暗的一面。一些人工智能生成的内容将被用来欺骗,引发对大规模算法假新闻爆发的担忧。有关图像是否被修改的旧辩论将让位于各种内容(包括文本)的讨论。( Some AI-generated content will be used to deceive, kicking off fears of an avalanche of algorithmic fake news. Old debates about whether an image was doctored will give way to new ones about the pedigree of all kinds of content, including text. )如果你还没有,你会发现自己在想:人类在创作该专辑/电视剧/ 流量文章时扮演什么角色?
在AI生成的内容中充斥着世界是乌托邦的典型例子,也是乌托邦。它很混乱,很漂亮,而且它已经在这里了。
目前有两种方法可以制作类似于真实世界的音频或视频。首先是使用摄像头和麦克风记录一段时间,比如最初的月球着陆。其次是利用人才,通常花费很大的代价来委托传真。因此,如果月球下降是一个骗局,一个熟练的电影队将不得不仔细登台尼尔阿姆斯特朗的月球大炮。机器学习算法现在提供了第三种选择,通过让任何拥有一定技术知识的人在算法上重新混合现有内容来生成新材料。
起初,深度学习生成的内容不适用于照片写实。 2015年发布的Google深度梦是早期使用深度学习来展示迷幻风景和多姿多彩的怪诞的例子。 2016年,一款名为Prisma的流行照片编辑应用程序通过深度学习为艺术照片滤镜提供动力,例如将快照变成对Mondrian或Munch的敬意。 Prisma的技术被称为风格转换:采取一个图像的风格(如The Scream)并将其应用于第二个镜头。
现在,支持风格转换的算法正在获得更高的精度,这标志着(Uncanny Valley)不可思议的山谷的终结 - 这种现实的计算机生成的人类通常所引发的不安感。与之前的有些粗糙的效果相反,像斑马化这样的技巧开始填补山谷下部的盆地。想想Kavita Bala在康奈尔大学的实验室的工作,深度学习可以将一张照片的风格(比如一个闪烁的夜间氛围)注入到一个单调的大都市的快照中,并欺骗人类审稿人,让他们认为复合的地方是真实的。受到人工智能潜能的启发,Bala与这家公司合作创立了一家名为Grokstyle的公司。假设你很喜欢在朋友的沙发上扔枕头,或者杂志传播引起了你的注意, Feed Grokstyle的算法化一个图像,它会用相同的外观来表示相似的对象。
机器学习使这些项目成为可能,因为它可以比以前的计算机视觉方法更好地理解脸部的部分或前景和背景之间的差异。Sensei工具让艺术家用概念而不是原材料工作。 “Photoshop在处理像素方面很出色,但人们试图做的是操纵像素所代表的内容,”Brandt解释说。
这是好事。当艺术家不再浪费时间在屏幕上争夺个人点时,他们的生产力提高了,也许还有他们的聪明才智,Brandt说。 “我对新艺术形式出现的可能性感到兴奋,我预计这种形式将会出现。”
但不难看出,这种创造性的爆炸可能会发生很大的错误。对于芝加哥大学研究生Yuanshun Yao来说,这是一个虚假的视频,他最近的项目探索了机器学习的一些危险。他在最近一段由人工智能生成的,非常真实的巴拉克•奥巴马发表讲话时发挥了作用,并且开始思考:他能否用文字做类似的事情?
文本结构需要近乎完美地欺骗大多数读者,因此他开始了一个宽容的目标,为Yelp或亚马逊等平台提供虚假的在线评论。评论可能只有几句话,读者不希望高质量的写作。所以他和他的同事们设计了一个神经网络,每个神经网络吐出大约五个句子的Yelp风格的图片。 于是出现了一组评论,宣称“我们最喜欢的地方是肯定的!”和“我和我的兄弟一起去了,我们吃了素食意大利面,而且很美味。”他让人们猜测他们是真的还是真的?假的,果然,人类经常被愚弄。
由于微观任务市场上的虚假评论价格在10美元到50美元之间,姚认为,一个积极主动的工程师试图自动化这个过程,压低价格并开始虚假评论的瘟疫,只是时间问题。 (他还探讨了使用神经网络来防御假冒内容的平台,并取得了一些成功。)“据我们所知,目前还没有任何这样的系统,”姚说。 “但是也许在五到十年后,我们将被AI生成的东西所包围。”他的下一个目标是什么?生成令人信服的新闻报道。
视频进度可能会更快。检测假照片和视频的专家,达特茅斯教授----Hany Farid担心病毒内容传播速度有多快,验证过程有多慢。法里德想象不久的将来,特朗普总统令人信服的虚假视频命令朝鲜全面歼灭病毒,并引发恐慌,就像重塑AI时代的世界大战一样。 “我尽量不做歇斯底里的预测,但我不认为这太牵强,”他说。 “这是今天可能实现的领域。”
假特朗普的演讲已经在互联网上传播,这是语音合成初创公司Lyrebird的产品 - 尽管在公司与公众分享的音频片段中,特朗普的手指离开按钮,限制自己赞美Lyrebird。该公司的联合创始人兼首席执行官Jose Sotelo认为,技术是不可避免的,所以他和他的同事也可以做到这一点,并制定了道德准则。他认为,现在最好的防守就是提高对机器学习能力的认识。 “如果你在月球上看到我的照片,你会认为这可能是一些图像编辑软件,”Sotelo说。 “但如果你听到你最好的朋友说出关于你的坏话的令人信服的声音,你可能会担心。这是一项非常新的技术和一个非常具有挑战性的问题。“
如果我们甚至想要的话,没有什么能阻止即将到来的AI内容浪潮。最坏的情况是,骗子和政治人员会部署机器学习算法,以产生大量错误信息。由于社交网络有选择地传输最引人注目的内容,因此这些系统的输出将演变为最可爱,可点击和可共享。
但在最好的情况下,人工智能生成的内容很可能以多种方式治愈我们的社交结构。 Lyrebird的Sotelo梦想着他的公司的技术如何能够使那些已经失去了ALS或癌症等疾病的人发表讲话。那个从伯克利出来的马到斑马的视频?改善我们如何训练自驾车的工作是一个副作用。通常情况下,驾驶软件首先是在虚拟环境中进行培训的,但像侠盗猎车手这样的世界只是大致类似于现实。斑马算法旨在缩小虚拟环境与真实世界之间的距离,最终使自驾车更安全。
AI是把双刃剑。随着它的改进,它越来越接近地模仿人类行为。最终,它别无选择,只能变得太人性化:在同等程度上有善与恶的能力。
原文链接
https://www.wired.com/story/future-of-artificial-intelligence-2018/
网友评论