从概率角度看3DCNN中时空融合2020-06-23

作者: 一只大南瓜 | 来源:发表于2020-06-23 22:19 被阅读0次

从概率角度看3DCNN中时空融合2020-06-23
心态
时空融合
父母子女不过一场缘分
准中精之路（3）——概率统计事件运算律与代数空间
20180609_从概率说起_科学_经验
生成模型VS判别模型
2022年5月25日（第112天）
Task5模型融合
美国保龄球职业生涯（四十），保龄球的构造及如何选择适合的球。

今日论文：Spatiotemporal Fusion in 3D CNNs: A Probabilistic View来自cvpr2020

主要工作：

1）我们第一个从概率角度研究3Dcnn网络进行时空融合。我们提出的概率方法能够高效地分析各种时空融合策略。并且能对时空融合进行网络层级别，细粒度分析
2）我们提出Variational DropPath，以端到端的形式来构建概率空间。
3）根据概率空间能够构建新的融合策略，在四个动作识别的数据集上取得state-of-the-art
4）从概率空间得到的时空融合提示具有通用性

研究背景：

在视频应用中，如动作识别，时空融合都是其中的一个重要组成部分。在深度学习中时空融合一般分为两类：1）采用两流来分别提取时间和空间特征，再加以融合。2）在单流3DCNN中融合空间和时间特征。他们根据经验设计的一种或几种融合策略得出结论。每个融合策略都是固定的，预先定义的，并且在各自单独的网络中评估，从而导致对融合策略的分析是网络层次的。现有的解决方案很难对大量的融合策略进行评估，也不能支持细粒度和网络层级别的分析。

解决方案：

本文提出从概率角度来分析3Dcnn网络的时空融合。本文将时空融合分析作为一个优化问题，目标是找到一个概率空间，在这个概率空间中，每个单独的融合策略被视为一个随机事件，并具有有意义的概率。概率空间满足以下要求。1，可以从概率空间低成本地得到每个时空融合策略（事件）的性能，因此我们可以基于该性能来评估不同融合策略，而不必分别训练每个策略；2，能够通过该概率空间推断出时空融合的局部性偏好，从而可以对融合策略进行逐层的细粒度分析。

图1:3Dcnn中的时空融合。（a）已经提出的融合策略，这些方法是根据经验设计的，并通过训练每个相应的网络来评估。（b）提出的概率方法。我们提出通过寻找一个概率空间来分析时空融合，在这个概率空间中，每一种融合策略都被视为具有一定概率的随机事件。首先介绍了一种基于基本融合单元的模板网络来支持多种融合策略。然后我们将所有可能的融合策略嵌入到由融合策略的后验分布定义的概率空间中。因此，可以评估/分析各种融合策略，而不需要单独的网络训练来获得网络级观察和层级偏好。这里的S、ST和S + ST是基本的融合单元，分别由2D、3D和2D/3D卷积的混合实例化。

本文在3Dcnn中通过dropout构造概率空间。如图1我们首先设计一个基于基本融合单元的模板网络。我们将基本单位定义为3Dcnn中不同形式的时空卷积，如空间、时空和空间、时空卷积。概率空间可以由模板网络中不同子网络(融合策略)上的后验分布及其相关核权值来定义。我们提出了Variational DropPath，通过变分分布来应用在基本融合单元上的dropout操作的概率。然后通过最小化变分分布和后后分布之间的Kullback-Leibler (KL)散度来推导后知分布。一旦得到这种分布，我们就可以从模板网络中获得各种融合策略。这些融合策略无需训练就可以直接评估。此外，我们还利用推导出的概率空间来提供在时空融合网络层级别的偏好。

方法

首先可以吧L层的3D表示为三元组{(l; v; u)}_L.其中l为层数index， v是一个l-1维二值化向量，表示前面l-1层中那一层特征被用到，u为基本融合单元

利用不同融合策略的后验分布及其核权重构造概率空间。在概率空间中一个具体的3DCNN网络应为一个随机事件。

所以概率空间定义为

（怎么才能让他不换行啊要疯了。）

这里的第一项为所有可能的结果，第二项为所有可能的事件，在本文中他们是等价的。第三项为概率测度函数，我们使用后验分布来描述事件的概率

在此概率空间中，将各种融合策略及其相关核权值成对采样，无需经过训练即可直接进行评价。只有通过网络测试才能获得一种策略的总体性能。因此，满足概率空间的第一个条件，现在要解决的主要工作就是概率测度函数
我们提出了一种变分贝叶斯方法来逼近它。首先建立了基于基本融合单元的模板网络，然后我们采用变分分布来分解模板网络中的基本单元为weight 乘dropout率。然后我们进一步提出了v-DropPath使我们能够通过训练模板网络来最小化变分分布和后置分布之间的KL距离所以1式就变成了

然后我们通过最小化KL散度来近似后验分布

Q（）是一个变分分布，我们把它分解为

其中M（）=0,1 表示在模板网络的第l层启用/禁用来自第i层和融合单元u的特征优化公式3就相当于优化

这个公式说明可以通过训练一个3Dcnn模板网络来优化后验概率分布

一旦得到后验分布所定义的概率空间，我们就可以在网络层面和layer层面上非常有效地研究时空融合
1）网络层面
我们通过直接采样一组策略和权重对来研究融合策略。每个融合策略的有效性可以很容易地从验证数据集上的测试性能中得到。由于采样和评估都是轻量级的，因此我们的方法可以大大扩展用于分析的融合策略的数量和形式
2）layer层面
在公式4中我们对不同融合策略进行重参数化。由此可以推导出各层融合单元的边缘概率为