美文网首页
【征文精选】用机器学习和智能实时算法实现动画分辨率提升

【征文精选】用机器学习和智能实时算法实现动画分辨率提升

作者: AI研习社 | 来源:发表于2020-06-22 15:47 被阅读0次

     本文为雷锋字幕组“触摸世界前沿科技 | 翻译征文 ”活动收录稿件

    Crunchyroll目录涵盖了大量的视频内容,我们发布的内容从在DVD上发行的480P的分辨率到在标清电视上播放的动画片,其分辨率几乎从未超过1080P。随着显示器能够处理越来越高的分辨率,以及流媒体平台能够应对变动的网速,这对现代的动漫迷来说会意味着什么呢?如果你正在4K家用电视机上以及4K电脑显示屏上使用Crunchyroll,动漫最终会从原来的分辨率(不超过1080P)放大到你的显示器的分辨率大小。如果你的互联网带宽受限,或者你想要下载一集离线观看,且以较小的文件大小以节省空间,这会变得更加复杂。这两种情况都需要访问原始视频文件的较低分辨率版本,然后通过视频解码和渲染将其放大到您设备的分辨率大小。

    这留给我们一个相当有趣的挑战--我们如何探索合适的放大方式来提升动漫观看体验?动漫迷和内容解码社区已经努力的开始和探索这个问题,而且我们Crunchyroll 一直在关注这个问题。我们想探索一些已经提出的解决方案,即预处理和实时放大。以下是我们的初步发现。

    你的电视/设备/浏览器是做什么用的?

    我们在寻求改善局势的同时,了解当前的处理过程很重要。大多数放大方法采用高效的通用放大算法,例如双线性插值-实质上是利用数学公式估计并填充视觉数据,以解释源视频与显示屏分辨率之间的差异(有关此算法和其他相关算法的更多信息,可以查看 Wikipedia )。在大多数情况下,你的浏览器或者移动应用程序会采用双线性或者双三次插值来放大视频和图像。这些算法通过比较相邻像素来创建像素的加权值。

    双线性插值的几何可视化。期望点(黑色点)的值与整个区域的乘积等于每个角的值与对角的局部区域(相对应的颜色)的乘积之和。来自Wikipedia

    在4K(现在是8K)的电视中,智能缩放的竞争环境越来越激烈。智能缩放技术采用实时处理方式,将源视频裁剪成重叠的片段或小块,然后将其映射到相对应的更高分辨率的小块上,这些小块会被投射到目标输出尺寸。由于这些算法具有专利权,而且通常是特定制造商或电视所独有的,所以对它们的详细比较,以及他们对动漫观看体验质量的主观影响远远超过了我们最初的探索范围,但它却是影响您观看体验的一个要素,这取决于您的显示器及其配置。

    在任何情况下,依赖电视性能并不能很好地缩放(请原谅双关语),应该朝着在每个设备和平台上,给每个用户提供最好的放大后的动漫观看体验的可能性发展。

    我们想为Crunchyroll内容探索一些实用的方法。我们从动漫放大社区探索了两种可能的方法:放大作为编码的一部分以及智能实时放大。

    ML(机器学习)放大编码

    你首先应该知道的是我们追求两种不同类型的放大方式:1.视频文件级别的放大(我们称之为编码级别)(甚至在文件被访问进行流式处理之前)以及2.在文件进行流式处理的过程中实时地动态放大。对于在编码级别上的放大,我们使用软件 Waifu2x。Waifu2x是由GitHub用户Nagadomi编写,其灵感来源于SRCNN[1] (使用深度卷积网络的超分辨率)技术--用于放大图像的应用机器学习。他利用了卷积神经网络(CNN)模型,该模型可以补偿在内容放大时通常会丢失的各种细节。它使用该模型预测并填充在内容被放大到比源数据更高分辨率时的细节。

    放大的动漫--当内容被拉伸到大格式的电视时,总是会出现图像伪影。

    使用Waifu2x软件的改进AI放大的动漫,提升了在大型高分辨率显示屏上的动漫观感。

    低分辨率源目录内容的一个例子是火影忍者的第一集《回家》。它发布于2007年2月,该内容的Crunchyroll的源视频的分辨率为480P。

    当放大源视频时,请更进一步观察默认的缩放方法(注意撕裂和失真)。

    Waifu2x能够在内容缩放时保持质量并减少编码/压缩噪声。

    对我们来说,向我们的粉丝首次展示这些编码(即使在有限的实验中),利用这项技术获得一些质量增益的客观评价是很重要的。为了测试放大性能,我们必须用已经包含高分辨率源视频的有价值数据建立基准。我们降采样(我们以720P的分辨率拍摄一段源视频,降低其分辨率)到360P,来表示一些我们的早期目录标题的可用质量;然后将其放大到720P. 接下来,我们将原始的72P的视频与从360P放大后的视频进行了比较。我们比较了双线性插值、双三次插值以及Waifu2x。从这些测量来看,Waifu2x在目标材料的精确表达方面比传统缩放技术有了明显的进步。生成该数据的脚本的综述参见here

    将常用放大算法与Waifu 2x进行比较。峰值信噪比(VMAF)测量图像的最大可能分辨率与影响图像保真度的破坏性噪声功率的比值。视频多方法评估融合是一种较新的质量度量方法,他可能更准确地放映主管观察者的质量体验。

    图像分辨率从1080P到2160P(4K)的变化很难注意到,除非使用非常大的显示屏。当你已经有一个非常精细的1080P源材料时,就会有更少的机会明显地清理东西。在我们在4K显示的每一项比较中,Waifu2x 与传统的源缩放通常没有明显不同。在极端放大下,一些双三次插值的deltas 与Waifu2x开始明显起来。

    108P到2140P的传统放大

    Waifu2x 1080P -> 2140P

    请注意线条上更为平滑的缩放;但是与480P放大相比,这里的变化更不引人注意,而且只有在非常大的显示屏上才明显。我们可能会在未来的努力中更深入的探索这一点,但是对于目前在编码级别上放大的实验,我们主要关注具有较低分辨率的源材料的内容。

    我们正在对一些历史上地低分辨率内容尝试这种放大技术。在任何Crunchyroll支持的平台上访问这个内容都将消耗这些编码的更高质量的版本。

    火影忍者 -- 第1集
    火影忍者 -- 第33集
    蓝色潜水艇6号 -- 第1集

    Waifu2x在视频文件级别提供了一个解决方案,但您应该记得上面我们还探讨了在流式传输文件时的实时放大(客户端级别)。对于客户端级别的就放大,GPU Anime4k是一个领先的解决方案。Anime4k由GitHub用户bloc97构建,它是一种“可以用任意编程语言实现的最先进的实时动漫放大算法”。在web体验的情况下,WebGL着色器(着色器是传统用于在3D对象上生成阴影的计算机程序,但现在广泛用于视频后处理)用于支持在web浏览器中将分辨率实时放大到4k/2160p。有趣的是,由于Crunchyroll利用了软字幕(字幕覆盖在视频上,而不是作为原始视频文件的一部分存在),我们利用浏览器合成以在可能的地方分别缩放视频和字幕显示。

    我们针对web体验更新视频播放器时允许用户选择启用anime4k滤波器选项。这种体验甚至包括对滤波器的一些基本控制。与Waifu2x的小样本不同,我们使用Waifu2x编码源视频文件的数量是有限的,当你拥有一个GPU和现代浏览器时,这种实时方法可以用于所有使用Crunchyroll Velocity player播放的内容。这里是一些体验的截屏:

    左边是传统的放大,右边是使用Anime4k 的放大。请注意Anime4k优化的一些边缘锐化。

    默认缩放(放大2倍)

    Anime4k 缩放(放大2倍)。请注意,当内容放大成大格式显示时,阴影和线条更少的模糊。

    实时放大工具仅在WebGL可用的部分浏览器上的web上可用。这个功能还处于alpha阶段,所以请记住这一点。您可以在高级质量控制下看到Chrome&Edge浏览器的Crunchyroll高级用户的选择。流程如下:

    第一步:在Crunchyroll.com上下载一段视频。在播放器上单击鼠标右键并开启“高级质量控制”。

    第二步:点击右下角的齿轮图标,选择“高级控制”,然后切换Anime4k。

    第三步:由于Anime4k方案的精细工作,你现在可以享受动漫了。如果你想调整默认值,这里提供了一些基本控件。

    在编码和客户端级别使用的方法非常不同,而且它们针对的是不同的应用实例。理想的设置也许是两者都用,因为我们希望从多样性的源文件,流的上下文到带宽限制之间都能提升内容的缩放效果。

    我们旨在从缩放滤波器或者编码之类的社区中获得反馈。当然,这项工作另一个重要的方面将是把这些放大能力(我们应用程序的4K版本)引入到游戏控制台和连到4K电视机的UHD流媒体设备,在这些设备上,这些技术的影响会是最明显的。同样的,在移动设备这种网络受限的环境上,与目前使用的有损失的传统缩放技术相比,在客户端上进行动漫特定的放大可以带来明显的好处。

    我们也注意到了这些放大策略是如何在编码过程中使用的。我们希望探索后处理滤波器的知识是如何在我们将字节用于最大化视觉质量的地方影响编码权衡的。在AV1编解码器(一种视频编码格式)生态系统内围绕如何处理胶片颗粒合成(一个概念,表示压缩能够更好地保留胶片颗粒而不损失质量)的发展,对这一未来探索具有启发意义。更多信息请参见Andrey Norkin和Neil Birkbeck的AV1视频编解码器的胶片颗粒合成

    当然,我们非常感谢制作这些神奇工具的动漫放大社区。随着这一令人兴奋的领域不断发展,我们期待在这一领域进行更多投资。

    [1] Chao Dong, Chen Change Loy, Kaiming He, Xiaoou Tang, “Image Super-Resolution Using Deep Convolutional Networks”, http://arxiv.org/abs/1501.00092

     本文为雷锋字幕组“触摸世界前沿科技 | 翻译征文 ”活动收录稿件

    相关文章

      网友评论

          本文标题:【征文精选】用机器学习和智能实时算法实现动画分辨率提升

          本文链接:https://www.haomeiwen.com/subject/lfaxfktx.html