人工智能十几年前就开始火了起来,尤其是2012年深度学习技术取得突破后,中国的人工智能开始快速发展,特别近几年随着GPT的成功,直接把人工智能带飞,人们视乎看到了在大部分领域,机器都能取代人力的可能性。于是乎AI技术广泛应用于金融、医疗、教育、交通等多个领域。特别是在自动驾驶、智能城市、智能制造等方面,中国的AI技术已经有了显著的成就。
数字人系列:
DINet+Openface训练数字人一:DINet简介与环境搭建
DINet+Openface训练数字人二:项目依赖与examples推理
DINet+Openface训练数字人三:自定义推理
DINet+Openface训练数字人四:自定义训练
一、DINet论文简介
人脸视觉配音(Face visually dubbing)旨在根据输入的驱动音频同步源视频中的嘴型,同时保持身份和头部姿势与源视频帧一致。然而在少样本条件下,实现高分辨率视频下的高质量人脸视觉配音仍然是一项挑战。一个主要原因是,在少数样本的条件下,嘴部纹理细节与驱动音频的相关性很小,因此直接生成高频纹理细节是比较困难的。为了解决这个问题,形变修复网路DINet通过对参考人脸图像进行空间形变来保留更多的嘴部纹理细节。具体地,首先对参考人脸图像的特征图做空间形变,形变后的特征包含与语音同步和头部姿态对齐的口型特征;然后使用空间形变后的特征修补嘴部区域,空间形变是将像素移动,而不是重新生成,因此能够保存足够多的纹理信息。
DINet提出了一个形变修复网络实现高分辨率下的人脸视觉配音技术,整个形变修复网络包含有一个形变网络部分和一个修复网络部分。
形变网络部分对参考人脸图像的特征图进行空间形变,使其得到与语音相匹配的口型以及与源人脸相对齐的头部姿态。
修复网络部分自适应的融合形变的特征和源人脸特征,实现人脸视觉配音技术。
通过结果形变和修复两个操作,使得该方案能够保留更多的嘴部细节。
二、DINet项目 环境搭建
“变形修复网络,用于在高分辨率视频上进行逼真的面部视觉配音”的源代码。
改论文的实现,已经在github上开源了,他是一个Python项目
你可以通过git clone源码
git clone https://github.com/MRzzm/DINet.git
如果要用其examples进行推理和或者训练自己的模型,则需要搭建Python开发环境。
你可以,在宿主机上进行环境搭建,不过不建议这么做,因为每个AI项目对环境的要求,都或多或少都会有差异,甚至差异巨大,直接在搭建就会把环境搞得乱七八糟,项目之间互相影响,产生非常多不必要的麻烦。
合理的做法是安装Anaconda,针对具体环境要求,创建特定的环境,这样就可以不用互相影响了。
具体的安装方式见我的另一篇文章
强化学习小白篇一:Anaconda+Pycharm搭建深度学习环境
安装好Anaconda 后,打开 Anaconda Prompt,它是Anaconda 的命令行工具。
该项目是基于python3.6的,故,我们要创建一个基于3.6的python环境。
conda create -name python3_6 python=3.6
PS: 如有翻墙代理,要先关闭代理,否则会创建失败,创建环境后再打开代理。
激活环境
conda activate python3_6
配置代理
set http_proxy=http://127.0.0.1:7749
set https_proxy=http://127.0.0.1:7749
如果没有翻墙的,则不用配置代理,如有,先自己查清楚代理IP+端口
至此,环境就准备完毕。
网友评论