美文网首页
Learned Video Compression & Vide

Learned Video Compression & Vide

作者: zilla | 来源:发表于2023-11-27 11:38 被阅读0次

    评测工具:
    CompressAI
    指标:
    相同BPP下的,PSNR和MS-SSIM
    PSNR
    MS-SSIM
    FPS:frame per second
    BPP:bits per pixel

    用神经网络做视频压缩(思路类似传统Codec)

    参考:https://github.com/Little-Podi/Learned_Compression
    仍然包括传统Codec中的各模块,端到端地用神经网络来做或是混合方案

    方法 主要单位 来源 论文 代码 性能指标 --
    DVC 上海交大 CVPR'19 paper 【tf code】 【torch code】 相同BPP下,PSNR优于H.264;BPP>0.1时MS-SSIM接近H.265 首个端到端的深度学习视频压缩框架,在深度学习视频压缩领域常被视为基准算法。所有关键组件,即运动估计、运动补偿、残差压缩、运动压缩、量化和码率估计,都是通过神经网络实现并联合优化的。ref
    FVC 北航,北理工 CVPR'21 paper 特征空间视频编码(FVC)网络,可以通过在特征空间中执行所有的主要操作(即运动估计、运动压缩、运动补偿和残差压缩)ref
    DCVC 微软 NIPS'21 paper 【code】 相同BPP下,PSNR优于H.265
    DCVC-HEM 微软 MM'22 paper 【code】 最高压缩率设置下,PSNR和MS-SSIM优于H.266
    DCVC-TCM 微软 Transactions on Multimedia, 2022 paper 【code】
    DCVC-DC 微软 MM'22 paper 【code】 基于DCVC-HEM,挖掘上下文。 基于DCVC-HEM,挖掘上下文。
    Distributed DVC 港科大 ICME'23 paper 【code】
    MIMT 腾讯 ICLR'23 paper

    ⭐基于低维表示的视频压缩

    关键词:autoencoder, video compression

    方法 主要单位 来源 论文 代码 性能指标 --
    Rate-Distortion Autoencoders 高通 ICCV'19 paper
    NVP 韩国科学技术院 NIPS'22 paper 【code】

    ⭐基于隐式表示的视频压缩

    关键词:implicit neural representation, codec
    有点AIGC的意思

    • 传统的自编码器中的latent representation和implicit representation的区别
      • 自编码器包括编码器和解码器,发送方用编码器将输入数据映射到低维latent representation,将低维表示发给接收方;接收方将低维表示输入到decoder,还原出图像。
      • implicit representation将数据的信息存储在神经网络的权重中,直接用神经网络表示数据。发送方将视频压缩为模型,发送模型;接收方用prompt(帧索引等)从模型中查询出视频图像。
    方法 主要单位 来源 论文 代码 性能指标 --
    NeRV 马里兰大学,Meta NIPS'21 paper 【code】
    Implicit Neural Video Compression 高通 ICLR'22 paper
    NVP 韩国科学技术院 NIPS'22 paper 【code】
    HNeRV 马里兰大学,Meta CVPR'23 paper 【code】 PSNR相同时,解码速度比H.264快
    优化NeRV 三星 ICML'23 paper 同BPP下,超过NeRV
    D-NeRV 马里兰大学,Meta CVPR'23 paper 【code】 一个模型可以编码多个视频

    视频生成

    关键词:video generation
    典型AIGC,但做Codec太困难(算力消耗极大,原生方案速度极慢)

    方法 主要单位 来源 论文 代码 性能指标 --
    StyleGAN-V KAUST, Snap CVPR'22 paper 【code】
    PVDM 韩国科学技术院,Google CVPR'23 paper 【code】 diffusion model
    Stable-video-diffusion StabilityAI 官网 paper 【code】 (960, 720)分辨率,显存消耗60G;A100生成24帧大约需要1min。 可控性差。

    相关文章

      网友评论

          本文标题:Learned Video Compression & Vide

          本文链接:https://www.haomeiwen.com/subject/ulpawdtx.html