Two-stream Convolution Networks

作者: Loopz | 来源:发表于2018-11-25 15:10 被阅读0次

two-stream architecture

1.Spatial stream Convnet：随机采样单帧图片输入，提取静态特征（颜色，形状）

网络结构很常用，类似于图像领域上的应用，可以现在Imagnet预训练，再微调。

2.Temporal stream Convnet:本文的亮点。

与以往将堆叠的视频帧作为输入不同，本文采用堆叠的光流作为网络的输入。将多帧（L帧）光流作为多个输入通道（2L）

以往堆叠的视频帧，将堆叠的视频帧作为输入，未从时序上处理视频帧，只是简单地作为多个输入通道，难以提取时空运动信息。

而将堆叠的光流输入，光流本身已描述了运动的速度和方向，然而存在着计算量大的问题。

3.spatial stream convnet与Temporal stream convnet融合：

简单求平均或者两者用L2范式融合再用SVM分类

summary：

1.光流的多种变体：

a。简单计算选定帧I的前向L帧光流

b。只计算稠密轨迹点上的光流（计算量减小？效果差一些？）

问题Q:实验结果表明该效果比单纯的光流效果差？为什么？

c。计算选定帧I的前L/2帧以及后L/2帧光流

2.相机运动消除

减去平均光流

3.多任务学习

针对数据集小，样本数量少：本文联合UCF101与HMDB51数据集进行训练，用两层softmax分别进行两个数据集的分类

4.训练：

a。每次迭代从视频样本中随机抽取一帧(I)作为空域卷积网络的输入

当迭代次数多时，可以保证随机采样得到的帧均匀分布整个视频样本。

问题Q:迭代的次数能否满足上述要求？每次只学习到一帧？是否存在效率低的问题？

b。计算选定帧I的L帧光流，作为时域卷积网络的输入

问题Q:选定帧I位于视频的开始，结束时，如何计算L帧光流

5.测试

从待测试的视频中均匀抽取固定数量的视频帧作为输入

问题Q:不同长度的视频是否需要不一样的数量

网友评论

本文标题：Two-stream Convolution Networks

本文链接：https://www.haomeiwen.com/subject/odlpqqtx.html

Two-stream Convolution Networks