“没问题,什么样的脸我都能给你呈现。” 不仅如此,现在还可以根据你自己的声音或是一段文字,再选择一张脸,就能让TA说话,甚至对话。
这个黑科技叫Motionface,只要一句话、一段文字,随便一张脸就能说话。
Motionface是音频驱动的面部视频合成技术
根据下面的这段文字,生成了美国四位总统的演讲视频,跟我们印象中他们说话的样子如出一辙。
与最先进的基于音频驱动的面部视频合成技术相比,该方法能够适用于多个目标。
和基于2D的“You said that?”(基于GAN)方法相比,虽然它们不需要3D模型就可以工作,但作者的这项工作能够保证输出视频的3D一致性。
并且生成的是视频,而不是标准化的图像。
什么原理?
研究人员采用3D面部模型作为面部运动的中间表示,为了实现根据一句话就能再现逼真的面部视频。
关键部分是基于声音的面部表情估计,采用了一个两阶段的过程
基于驱动人脸模型的表情预测,对目标视频图像空间进行神经纹理处理。
这一步包括两个网络。第一个网络用于将从神经纹理中采样的神经描述符转换为RGB颜色值。第二个网络将此图像嵌入到目标视频帧中。
最后,采用了一种新的延迟神经渲染(deferred neural rendering)技术来生成最终的输出图像。
原理比较复杂可能不是小编三言两语可表达清楚。
安卓可体验轻量级版本,感兴趣的可以自行体验版。这项技术可以运用在虚拟主播\虚拟形象,影视制作等方面。如果说要完全替换明星从视觉上可以实现,但是声音模拟上技术还未达到。虽然说目前高德地图有林志玲语音导航,要知道这个林志玲语音导航实现是请林志玲录制很多声音再通过机器学习才模拟出来的效果,不能通过随意一段音频模拟。
而motionface就是随便通过一张相片模拟出人脸各种形态,可以说技术上达到一定高度。
当你说:“嘿!Siri,请让我看看你的脸?
你不妨拿出自己的iPhone,打开Siri试一下,看看得到了什么回复,请评论在下面吧。
网友评论