R-C3D论文笔记

作者: 義傑 | 来源:发表于2018-03-06 11:59 被阅读743次

R-C3D: Region Convolutional 3D Network for Temporal Activity Detection

论文地址:https://arxiv.org/pdf/1703.07814.pdf

刚看完论文，先总结一下论文的创新点:

1.推广faster-RCNN的Region Proposal Network到时域

2.推广faster-RCNN的ROI Pooling算法到时域

3.端到端的训练方式

R-C3D总览

网络的总体结构:

1.提取特征:C3D网络构成的特征提取网络提取特征，等效于Faster-RCNN中的ImageNet预训练的特征网络。

2.给出建议区域:根据C3D特征，给可能包含活动（activities）的时间区域（propose temporal regions）。等效于Faster-RCNN中的RPN,这里被称为Proposal Subnet

3.给出建议区域的动作类型:根据C3D特征和建议区域，得到区域内的实际活动（activities）类型，比如图中的跑步。等效于Faster-RCNN中的ROI POOLING+网络后半段的分类网络，这里被称为Classification Subnet。

注意:

输入是整个视频（或者任意长度视频段），C3D特征的输出被第2步和第3步共享。

详细的网络结构如下:

网络详细结构

1.3D ConNet:输入尺寸为3*L*H*W的视频，L为视频帧数，也是视频时序，输出为512*L/8*H/16*W/16的视频C3D特征。只需要使用C3D网络跑一遍视频即可。

2. Proposal Subnet，或Temporal Proposal Subnet。网络的前面，输入的是C3D特征，输出为512*L/8*1*1。这里的L/8对应于原来视频中的L，时序也严格对应，每个时序上的特征被保存在512维的向量里。基于这512维的向量，我们算基于anchor segments的一个时序上的偏差。作者定义的anchor segments，对应于Faster-RCNN的锚框，只不过，这是一个时序上的多尺度检测框，有K种。那么最后输出有K*L/8个anchor segments。预设的anchor segments如下

最终计算得到的结果相对于预设anchor segments的偏差，也就是:

3.Classification Subnet,或Activity Classification Subnet。利用NMS对Proposal Subnet的结果进行处理后，得到了时间长度大小不一的建议区域(Temporal Proposals)。这里引入一个3D ROI Pooling的概念，假设输入是l*h*w，我们目的是得到一个

直观的想法就是，把输入进行划分，划分成这么多区域，然后做pooling。OK，就是这样。

网友评论

本文标题：R-C3D论文笔记

本文链接：https://www.haomeiwen.com/subject/syggxftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

R-C3D论文笔记

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读