美文网首页
Two-stream Convolution Networks

Two-stream Convolution Networks

作者: Loopz | 来源:发表于2018-11-25 15:10 被阅读0次
    two-stream architecture

    1.Spatial stream Convnet:随机采样单帧图片输入,提取静态特征(颜色,形状)

    网络结构很常用,类似于图像领域上的应用,可以现在Imagnet预训练,再微调。

    2.Temporal stream Convnet:本文的亮点。

    与以往将堆叠的视频帧作为输入不同,本文采用堆叠的光流作为网络的输入。将多帧(L帧)光流作为多个输入通道(2L)

    以往堆叠的视频帧,将堆叠的视频帧作为输入,未从时序上处理视频帧,只是简单地作为多个输入通道,难以提取时空运动信息。

    而将堆叠的光流输入,光流本身已描述了运动的速度和方向,然而存在着计算量大的问题。

    3.spatial stream convnet与Temporal stream convnet融合:

    简单求平均或者两者用L2范式融合再用SVM分类

    summary:

    1.光流的多种变体:

    a。简单计算选定帧I的前向L帧光流

    b。只计算稠密轨迹点上的光流(计算量减小?效果差一些?)

    问题Q:实验结果表明该效果比单纯的光流效果差?为什么?

    c。计算选定帧I的前L/2帧以及后L/2帧光流

    2.相机运动消除

    减去平均光流

    3.多任务学习

    针对数据集小,样本数量少:本文联合UCF101与HMDB51数据集进行训练,用两层softmax分别进行两个数据集的分类

    4.训练:

    a。每次迭代从视频样本中随机抽取一帧(I)作为空域卷积网络的输入

    当迭代次数多时,可以保证随机采样得到的帧均匀分布整个视频样本。

    问题Q:迭代的次数能否满足上述要求?每次只学习到一帧?是否存在效率低的问题?

    b。计算选定帧I的L帧光流,作为时域卷积网络的输入

    问题Q:选定帧I位于视频的开始,结束时,如何计算L帧光流

    5.测试

    从待测试的视频中均匀抽取固定数量的视频帧作为输入

    问题Q:不同长度的视频是否需要不一样的数量

    相关文章

      网友评论

          本文标题:Two-stream Convolution Networks

          本文链接:https://www.haomeiwen.com/subject/odlpqqtx.html