人工智能十几年前就开始火了起来,尤其是2012年深度学习技术取得突破后,中国的人工智能开始快速发展,特别近几年随着GPT的成功,直接把人工智能带飞,人们视乎看到了在大部分领域,机器都能取代人力的可能性。于是乎AI技术广泛应用于金融、医疗、教育、交通等多个领域,特别是在自动驾驶、智能城市、智能制造等方面,中国的AI技术已经有了显著的成就。
数字人系列:
DINet+Openface训练数字人一:DINet简介与环境搭建
DINet+Openface训练数字人二:项目依赖与examples推理
DINet+Openface训练数字人三:自定义推理
DINet+Openface训练数字人四:自定义训练
DINet可以用自定义的视频与语音进行推理,推理效果如何,那就得要自己上手试试。
一、准备自定义视频与语音
大家可以准备自己的视频,或者去下载一个高清正脸的视频,我的是在油管下载的毛不易的访谈视频和老马的一个视频。
推荐用freemake.com去下载,把油管视频链接拷贝过去即可下载;
下载完毕后,需要进行适当的裁剪,让脸部大小变化越小越好
推荐使用clipchamp进行在线裁剪,裁剪为15秒左右,然后导出。
老马的视频,需要裁剪后,进行分离音频。
下载完音频文件后,还需要转换为WAV格式
推荐convertio去转换,好使。
这样就准备好,图像和语音了。
二、openface下载配置
自定义推理,需要使用对自定义视频的平滑面部进行检测标记。
到openface下载最新版本,
下载OpenFace_2.2.0_win_x64并解压到项目根目录。
进入解压目录,运行OpenFaceOffline.exe :,并做以下的配置调整
记录 | 录音设置 | 开放面设置 | 看法 | 人脸检测器 | 地标探测器 |
---|---|---|---|---|---|
2D 地标和跟踪视频 | 蒙版对齐图像 | 使用动态 AU 模型 | 显示视频 | Openface(MTCNN) | CE-CLM |
三、预处理自定义视频
加载预先准备的高清正脸短视频xxx.mp4(我这里准备的是上文提到的毛不易的访谈视频),等待处理完成即可。
处理过程中,会在openface安装路径下的processed文件中,生成三个文件:
- xxx.csv:里面存放着脸部的数据解析文件,打开后可以看到有一些坐标信息,是协助推理用的重要文件;
- xxx.avi:是脸部打点的视频转换文件,没有声音,暂时没发现对项目有用,应该协助生成csv文件的;
- xxx_of_details.txt :视频解析过程中详细数据文件,暂时没发现对项目有用,可以不用管它,内容如下
注意: 如果某个视频处理中断了,或者openface闪退了,这里需将对应的三个文件也删除掉,重来;
注意: 处理前的文件不能删除哦,后面要和CSV文件一起做推理;
四、自定义推理
使用 小毛 的人像+ 老马 的语音进行推理
python inference.py --mouth_region_size=256 --source_video_path=./OpenFace_2.2.0_win_x64/processed/maobuyi.mp4 --source_openface_landmark_path=./OpenFace_2.2.0_win_x64/processed/maobuyi.csv --driving_audio_path=./OpenFace_2.2.0_win_x64/processed/mamodu.wav --pretrained_clip_DINet_path=./asserts/clip_training_DINet_256mouth.pth
然后,静等完成。
到目录 ./asserts/inference_result 下,打开合成的视频 xxx_facial_dubbing_add_audio.mp4
发现有瑕疵,下巴糊了,估计是脸不够正视。
五、结论
因为资源质量的问题,每个人自定义的推理的效果,应该都会有一定的差异,如果要到达样例中那样的效果,则需要进行自己的训练。
准备下一篇,进行自定义视频的训练。
网友评论