本文经O'Reilly授权发布
大数据文摘字幕组作品
翻译:菜菜Tom、阿达、晓莉
监制:龙牧雪
在很多人的印象中,AI冰冷、生硬,和艺术无缘。但谷歌偏偏就不信。
谷歌大脑(Google Brain)有个Magenta项目,专门研究用TensorFlow和生成式模型来创造艺术作品,包括音乐、绘画作品等。他们的目的不是取代艺术家,而是为艺术家提供某些自动化协助,比如,编曲家可以用机器智能生成一段和弦。
项目代码已开源,请复制以下链接获取:
https://github.com/tensorflow/magenta
感觉有点酷!让我们来看看Magenta项目负责人Douglas Eck是怎样介绍他们的成果的。
****视频来自O'Reilly和Intel AI Conference****
时长15分钟,带有中文字幕▼
https://v.qq.com/x/page/m0611w3nbv9.html
内含一段AI演奏的肖邦钢琴练习曲
不要错过欣赏机会 🎧
Magenta最近更新的博客文章里,详细介绍了MusicVAE音乐生成的相关技术细节。
博文链接:
https://magenta.tensorflow.org/music-vae
最重要的是对潜在空间(Latent Space)的利用,即将高维数据转换成低维。
如果将一段音乐表示为时序数据,那么一定是高维的。比如,就单音钢琴来说,在任何时候,都可以按下或松开88个键中的一个。我们可以将其表示为90种类型的事件(88次按键,1次松开,1次休息)。
如果我们忽略速度并用一个16分音符作为时间单位,则两个4/4排的小节将具有9032种可能的序列(旋律)。如果扩展到16个小节,将会是90256个可能的序列,它比宇宙中的原子数量多很多倍!
可视化来看的话,就是下面这样。这里是两小节随机的音符。纵轴代表钢琴上的音符,横轴代表时间。
但在潜在空间中,这些音符的表示是下面这样:
image潜在空间能够表示低维空间中真实数据的变化。这意味着也可以通过潜在空间高精度地重建真实的数据。一种常见的模型是自动编码器(Auto Encoder)。
要生成一段音乐,需要模型学习较长的时间序列中的结构。在这里用到了一种分层解码器。
image效果是,可以将一段旋律A和另一段旋律B相结合,生成一段“平均旋律”:
image image image也可以用来给乐曲选择配器。
对艺术创作者来说比较有价值的,是基于这些成果开发的一些小工具,比如下面这个工具,可以自动生成一些旋律,供编曲人员使用:
image这个项目组内还诞生了一些有趣的交互作品,比如被写进“不能错过的2017年AI圈大事”的SketchRNN。(文章链接:https://mp.weixin.qq.com/s/yyQXCVF5oExhpi9u1yNE_Q)
image上面这张图说的是,基于谷歌开发的一个小游戏“QuickDraw”,研究人员收集了一批简笔画的数据,并用它们训练了一个模型,可以输出简笔画的图案。
有趣之处在于,人类的输入通常是脑洞大开的。
比如看上面的图片,左侧从上往下数第三组图案,人类输入了一只有5根胡须的猫。但是,机器认为一只“正常”的猫应该有6根胡须,左右各有3根,所以在输出图案的时候,就给这只猫多加了一根胡须。
同理,右上角的“8腿猪”显然也是超现实的,于是机器给我们画了一只正常的,2只眼睛4条腿的猪。
右侧第二组,人类给一个“猪”模型画了一辆卡车。以为机器会懵逼?没有。机器输出了一辆“猪猪卡车🚚”,或者说是,“卡车形猪猪🐽”?
至于右下角输入牙刷那位,实在是爱莫能助了。不过还是能看出来机器给牙刷加的猫耳朵和胡子。
SketchRNN介绍页面:
https://magenta.tensorflow.org/sketch-rnn-demo
你可以通过这个页面看其他人画过的一些样本,也可以点击Try Demo自己玩玩。首先你需要选择一个模型,模型加载完毕后,你就可以开始你的表演了,AI会根据你的笔画输出一个相应的图案。
文摘菌粗略看了一下,有100多个模型可以选择,什么蝴蝶、火烈鸟、手之类的都能画。随机试了一个“菠萝”模型,效果是这样的:
image黑色的线条是文摘菌画的,绿色的线条是AI帮忙补全的。
生成简笔画和简单的和弦,AI能实现的这些功能对于艺术家来说还比较基础,但是在文摘菌看来还是挺神奇的!你觉得呢?
image正如Doug在演讲视频中所言,“我可画不出这么好的猪猪卡车!”
网友评论