《TDN: Temporal Difference Networ

作者: ce0b74704937 | 来源:发表于2021-03-07 22:54 被阅读0次

《TDN: Temporal Difference Networ
Chapter 6
Temporal Difference Variational
期望与幸福感
100天持续行动—Day25
Q-learning:Temporal Difference /
什么是Temporal Difference (TD)
时序差分算法(Temporal-Difference Learn
强化学习导论——Temporal-Difference Lear
蒙特卡洛，时序差分Temporal-Difference Lea

论文地址：https://arxiv.org/abs/2012.10071
代码地址：https://github.com/MCG-NJU/TDN

该文章在2020年12月份发表于arxiv，文章提出了short-term TDM和long-sterm TDM模块来高效的获取local motion信息和global motion信息。从而在速度和精度上都取得了较好的成绩。

一、网络结构

网络结构如下图所示，从图中可以看出大体的框架类似于TSN模型（实际从代码上来说用的也是TSN的框架），虽然图中在short term和long term画了多个网络，实际上这都是一个网络，类似于TSN文章中的网络结构图。

1.png

为了更好的说明网络的工作原理，我们先来看一下图中，也是本文的创新点，short-term TDM和long-term TDM两种模块的结果和工作原理。

1.1 short-term TDM

TDM全名为 temporal difference module，可以知道TDM模块里存在一些差值的计算，而short-term指的就是短时间内局部信息的差值。举例说明，对于给定的一个视频V来说，首先类似TSN的处理方式，将视频等时长的分为T份。然后在等分的子视频中随机抽取一帧图像，那么视频V就可以输出T帧图像，用符号表示为 $I = [I_1, I_2, ..., I_T]$ ， $I_i$ 表示抽取出来的一帧图像，这里I的维度为[T, C, H, W]。接着获取的帧输入到2D CNN中提取特征，得到 $F=[F_1, ..., F_T]$ ， F表示获取到的特征，维度为 $[T, C', H', W']$ 。上述2DCNN就是接下来要解释的short-term TDM的一部分，short-term TDM是为了更好的来表示local motion而设计的。（这里框架图和short-sterm TDM图有一点点不太一样，框架图里面的S-TDM实际上是short-sterm TDM图中去除conv1后的其余部分结构，但是不影响理解。）

short-term TDM用公式表示如下：
$\hat{F}_i = F_i + H(I_i)$
$\hat{F}_i$ 表示short-term TDM的输出，H表示的是short-term TDM的核心部分。

H用公式表示如下：
$H(I_i)=Upsample(CNN(Downsample(D(I_i))))$
上式中 $D(I_i) = [D_{-2}, D_{-1}, D_{1}, D_{2}]$ 为以采样图片帧 $I_i$ 为中心局部抽取帧之间的帧差结果。

short-term TDM的示例图如下所示：

2.png

可以从图片看出，在抽取出 $I = [I_1, I_2, ..., I_T]$ 图像后，short-term TDM会先根据抽取的图像帧，从他们周围在多抽取几帧，其中 $I_i$ 帧为中心且直接输入到conv中提取出特征 $F_i$ ，其余的周围的帧和 $I_i$ 帧一起互相做差值，然后经过一些resnet中提出的res层和上采样下采样融合出short-term TDM的输出特征。文章表示这样输出的特征能比较好的获取局部的motion特征，然后将得到的short-term TDM特征作为long-term TDM的输入。

1.2 long-sterm TDM

long-sterm TDM的输入为short-sterm TDM的输出，下面用 $F_i$ 表示。

因为long-sterm TDM结构有点复杂，用公式表示会多比short-sterm TDM多一点，如下所示：
$\hat{F}_i=F_i + F_i \odot \mathcal{G}(F_i, F_{i+1})$
$\mathcal{G}(F_i, F_{i+1}) = \frac{1}{2}[M(F_i, F_{i+1})+M(F_{i+1}, F_i)]$
$M(F_i, F_{i+1}) = Sigmd(Conv(\sum^{n}_{i}CNN_j(C(F_i, F_{i+1}))))$
$C(F_i, F_{i+1})=F_i-Conv(F_{i+1})$
上式中 $\odot$ 表示点乘。

公式看起来复杂点，看图会比较好理解，long-sterm TDM如下图所示。因为也是TDM模块，所以也有做差值的操作。

3.png

上图中有个地方需要额外说明一下，就是F经过conv1后得到 $F_t, F_{t+1}$ ，且通道数变成了C/r。首先通道数变化好理解，就是conv1输出通道数是输入的1/r。为什么conv1输出了不同的 $F_t, F_{t+1}$ 呢，这里可以理解为经过conv1输出的feature在T维度向前移和向后移了一个单位。这也是TDM的表示所在，文章认为这样做可以获取全局的motion feature信息。

通过了解了提出的两个模块结构后，可以知道网络里类似于TSN一样计算，将一个样本视频提取的多个帧放入batch维度（输入的是NCTHW，实际计算是 $(N\times T)\times CHW$ ）。这样实际上上图显示的多个网络实际都是一套网络参数。还需要注意的是TDN网络图中的block不是单纯的long-sterm模块，而是以long-sterm模块为核心的residual模块（类似于在原始的resnet里面插入一个L-sterm TDM）。

到这里基本的创新原理就讲完了，具体的实验方式和实验结果可以查看论文与代码获取更多信息。

《TDN: Temporal Difference Networ
论文地址：https://arxiv.org/abs/2012.10071[https://arxiv.org/a...
Chapter 6
Chapter 6: Temporal-Difference Learning Temporal-differen...
Temporal Difference Variational
简介【笔记版】今天要讲的是ICLR2019中DeepMind的一个高分工作，TD-VAE，一个序列生成模型。通...
期望与幸福感
richard sutton 老师，所谓 "时间差分学习" 算法 (temporal difference le...
100天持续行动—Day25
11.16把 Temporal-Difference Methods 的概念大致理解了一下，然后敲了1遍代码。
Q-learning:Temporal Difference /
Q-learning 是RL的核心 Q 代表 Quality 品质系统维护一个Q值表： 13.31.622.67...
什么是Temporal Difference (TD)
Temporal difference 是通过没有环境先验知识的一组episode从环境中学习的一个代理。这意味着...
时序差分算法(Temporal-Difference Learn
概述时序差分算法是一种无模型的强化学习算法。它继承了动态规划(Dynamic Programming)和蒙特卡罗...
强化学习导论——Temporal-Difference Lear
毫无疑问TD是强化学习中一个最新奇的算法，它结合了MC和DP的思想 constant a-MC可以表示为那么简单...
蒙特卡洛，时序差分Temporal-Difference Lea
１.蒙特卡洛Monte-Carlo算法：1.将agent放入环境的任意状态2.从这个状态开始选择action, 并...