本文介绍了经典模型R-C3D:用于时间活动检测的区域卷积3D网络。此型号来自ICCV 2017.Google Academic Display被引用了127次。近两年来,这是该领域的一项有影响力的工作。代码一直是开源的。
该算法的基本思想如下:
受目标检测方法F-RN CNR的启发,本文提出了一种区域卷积三维网络(R-C3D)。如上所示,该方法首先在3D完全卷积网络中对视频帧进行编码,然后提取动作提议段,最后在分类的分子网络中(a)。动作分类子网)并对结果进行分类和细化。
相关介绍
连续视频中的活动检测是一个具有挑战性的问题,不仅需要识别,还需要及时准确地定位活动。在处理连续视频流的活动检测时,现有方法存在以下问题:
1)这些现成的表示可能不适合于定位不同视频域中的活动,从而导致地下性能。
2)现有方法依赖于外部建议或综合滑动窗口,这导致低计算效率。
3)滑动Windows无法轻松预测灵活的移动边界。
主要贡献
1)本文提出了一种活动检测模型R-C3D,它是一种端到端的活动检测模型。它可以检测任何长度的活动与活动推荐和分类阶段。
2)通过在提议生成和网络分类之间共享C3D的完全卷积特征,可以实现快速检测速度(比当前方法快5倍)。
3)评估了三种不同的活动检测数据集,证明了本文提出的模型具有普遍适用性。
关键原理
该网络可用于连续视频流中的活动检测。其网络结构如下,由三部分组成:共享3D ConvNet特征提取器,时间提议阶段和活动分类与细化阶段。
为了实现高效计算和端到端训练,建议与分类子网共享C3D特征映射。这里的一个关键创新是将更快的R-CNN中的2D RoI池扩展到3D RoI池。这种方法的优点是所提出的模型可以提取具有各种分辨率的可变长度建议框的特征。
在本文中,我们通过优化两个子网的分类和回归任务来训练网络。Softmax损失函数用于分类,平滑L1损失函数用于回归。因此,本文的目标函数是将两种损失函数结合如下:
上式中Ncls和Nreg分别代表批量大小和anchor/proposal段的数量,为损失权衡参数,设置为1,为预测概率,
表示anchor或proposals的预测相对偏移量,
表示anchor或proposals的ground truth的坐标变换。
其变换如下:
实验结果
Experiments on THUMOS’14
表1是THUMOS'14的活动检测结果。在表1中,作者将当前方法和R-C3D活动检测性能在IoU阈值0.1-0.5中进行了比较(表示为a)。在具有单向缓冲器的R-C3D中,mAP@0.5比当前最先进的方法高出27.0%3.7%。在所有IoU阈值下,双向缓冲器的R-C3D mAP得到改善,mAP @ 0.5达到28.9%。
表2显示了R-C3D中的每类AP(平均精度)和数据集THUMOS'14上的其他方法。该表显示R-C3D的AP在大多数类别中优于其他方法,在一些活动中甚至超过20%,例如Basketball Dunk,Cliff Diving等。图(a)显示了两个视频的定性结果 数据集THUMOS'14。
ActivityNet上的实验
表3显示了ActivityNet上的结果。表3.活动网络上的检测结果表示为mAP@0.5(百分比)。从表中可以看出,R-C3D方法在验证集和测试集中分别优于UPC 4.3%和4.5%(在mAP@0.5下)。当训练集和验证集用于训练时,R-C3D方法的结果仅比训练集高1.6%。
介绍了ActivityNet中R-C3D的代表性结果。
表4是关于数据集Charades的活动检测结果。如表4所示,所提出的模型优于文献[25]中提出的异步时域模型以及本文中报告的不同基线。
根据标准实践,该模型根据mAP@0.5进行评估,结果为9.3%。性能与其他数据集中测试的性能不同。这可能是由于数据集Charades中的固有问题,例如室内场景中的低照度,或者数据上的标签太多。
图显示了Charades中R-C3D的代表性结果。
结论
1)引入R-C3D模型以提出用于活动检测的第一端到端时间分类网络。
2)在三个大规模数据集中评估所提出的方法。结果表明,该方法比基于三维卷积的当前模型更快,更准确。
3)R-C3D还可以添加一些其他功能,以进一步改善活动检测结果。
演示视频和开源代码论文:关注微信公众号:“图像算法”或者微信搜索imalg_cn 可获取
网友评论