美文网首页
DINet+Openface训练数字人一:DINet简介与环境搭

DINet+Openface训练数字人一:DINet简介与环境搭

作者: IT前沿技术分享 | 来源:发表于2024-05-13 09:16 被阅读0次

    人工智能十几年前就开始火了起来,尤其是2012年深度学习技术取得突破后,中国的人工智能开始快速发展,特别近几年随着GPT的成功,直接把人工智能带飞,人们视乎看到了在大部分领域,机器都能取代人力的可能性。于是乎AI技术广泛应用于金融、医疗、教育、交通等多个领域。特别是在自动驾驶、智能城市、智能制造等方面,中国的AI技术已经有了显著的成就。


    数字人系列:
    DINet+Openface训练数字人一:DINet简介与环境搭建
    DINet+Openface训练数字人二:项目依赖与examples推理
    DINet+Openface训练数字人三:自定义推理
    DINet+Openface训练数字人四:自定义训练


    一、DINet论文简介


    人脸视觉配音(Face visually dubbing)旨在根据输入的驱动音频同步源视频中的嘴型,同时保持身份和头部姿势与源视频帧一致。然而在少样本条件下,实现高分辨率视频下的高质量人脸视觉配音仍然是一项挑战。一个主要原因是,在少数样本的条件下,嘴部纹理细节与驱动音频的相关性很小,因此直接生成高频纹理细节是比较困难的。为了解决这个问题,形变修复网路DINet通过对参考人脸图像进行空间形变来保留更多的嘴部纹理细节。具体地,首先对参考人脸图像的特征图做空间形变,形变后的特征包含与语音同步和头部姿态对齐的口型特征;然后使用空间形变后的特征修补嘴部区域,空间形变是将像素移动,而不是重新生成,因此能够保存足够多的纹理信息。

    DINet提出了一个形变修复网络实现高分辨率下的人脸视觉配音技术,整个形变修复网络包含有一个形变网络部分和一个修复网络部分。

    形变网络部分对参考人脸图像的特征图进行空间形变,使其得到与语音相匹配的口型以及与源人脸相对齐的头部姿态。

    修复网络部分自适应的融合形变的特征和源人脸特征,实现人脸视觉配音技术。

    通过结果形变和修复两个操作,使得该方案能够保留更多的嘴部细节。

    二、DINet项目 环境搭建

    “变形修复网络,用于在高分辨率视频上进行逼真的面部视觉配音”的源代码。

    改论文的实现,已经在github上开源了,他是一个Python项目

    你可以通过git clone源码

    git clone https://github.com/MRzzm/DINet.git
    

    如果要用其examples进行推理和或者训练自己的模型,则需要搭建Python开发环境。

    你可以,在宿主机上进行环境搭建,不过不建议这么做,因为每个AI项目对环境的要求,都或多或少都会有差异,甚至差异巨大,直接在搭建就会把环境搞得乱七八糟,项目之间互相影响,产生非常多不必要的麻烦。

    合理的做法是安装Anaconda,针对具体环境要求,创建特定的环境,这样就可以不用互相影响了。

    具体的安装方式见我的另一篇文章
    强化学习小白篇一:Anaconda+Pycharm搭建深度学习环境

    安装好Anaconda 后,打开 Anaconda Prompt,它是Anaconda 的命令行工具。
    该项目是基于python3.6的,故,我们要创建一个基于3.6的python环境。

    conda create -name python3_6 python=3.6
    

    PS: 如有翻墙代理,要先关闭代理,否则会创建失败,创建环境后再打开代理。

    激活环境

    conda activate python3_6
    

    配置代理

    set http_proxy=http://127.0.0.1:7749
    set https_proxy=http://127.0.0.1:7749
    

    如果没有翻墙的,则不用配置代理,如有,先自己查清楚代理IP+端口

    至此,环境就准备完毕。

    相关文章

      网友评论

          本文标题:DINet+Openface训练数字人一:DINet简介与环境搭

          本文链接:https://www.haomeiwen.com/subject/urcsfjtx.html