论文 | CVPR2020 《Action Genome: Ac

作者: 与阳光共进早餐 | 来源:发表于2020-06-25 09:56 被阅读0次

论文 | CVPR2020 《Action Genome: Ac
跟着Nature Genetics学画图：R语言ggtree给进
跟着Nature Genetics 学画图：R语言ggplot2
跟着Nature Genetics学画图：R语言ggtree可视
文献笔记五十一：野生柑橘基因组与柑橘的驯化历史
文献笔记六十五：叶绿体基因组组装工具综述
跟着NatureGenetics学作图：R语言ggplot2做进
实现可自由拖动的view
跟着Nature Genetics学画图：R语言ggbio包画基
跟着Nature Genetics学画图：R语言ggplot2画

一写在前面

未经允许，不得转载，谢谢～～～

这也是今年发表在CVPR上的文章，简单整理记录一下。

主要信息：

文章出处：CVPR2020
文章代码：暂未发布
数据集地址：暂未发布
原文链接：https://arxiv.org/abs/1912.06992

二主要内容

2.1 相关背景

以action recognition为代表的视频理解任务通常将视频当成一个单独的动作进行分析。相对应地，很多数据集对一个视频也用一个action进行标注。

虽然在图像领域，像scene graph这样的结构化表示已经被证明可以在很多任务上提升模型的性能。但在视频领域，视频动作的拆解（objects以及relationship的对应关系）还处于under-explored状态。

在认知科学也有研究支持人类会将长的视频分成几段以便理解。

2.2 本文工作

在视频领域，提出Action Genome，将动作表示成spatio-tempoal scene graph的形式。

以“person sitting on a sofa“为例，Action Genome在其对应的帧上进行object和relation的注释：

object：person，sofa
relation：<person next to sofa>, <person in front of sofa>, <person sitting on sofa>

基于Charades构建含有scene-graph的数据集：Action Genome

按照上面所示的例子，对视频进行sene-graph的标注工作，具体包括object以及relation；

最后的数据集包含：

157 action categories；
234K video frames；
476K bounding boxes；
1.72M relationships

在三种任务上进行了scene graph对于视频理解的帮助：

action recognition
few-shot action recognition
spatio-temporal scene graph prediction

三具体方法

3.1 Action Genome dataset

先简单介绍一下scene graph：

node：object（物体对应图里的节点）
edge：realtionship（物体之间的关系对应图中节点之间的边）

对应数据集的标注与构建：

整个数据集是基于Charades构建起来的；
标注的方法是action-oriented sampling strategy （以视频中的action为导向进行标注）
具体对应这个图进行解释：

对于视频中的每个action（不同的颜色段），在这个时间范围内统一sample 5帧进行注释。假设一段视频中有4个actions（action本身可包含，可覆盖），那总共会有4x5=20帧视频帧被标注到。

具体的标注形式如图所示，先标出跟这个action相关的object（bounding box），然后再标注relationships。

其中总共包含3类realtionships：

attention（looking or not）
spatial （空间位置）
contact （交互方式）

最后的数据集信息：

234253 frames
35 object classes， 476229 bounding boxes
25 relationship classes，1715568 instances

3.2 方法

方法部分相对比较简单，主要就是构建scene-graph，然后获取最终的representation。

看颜色的线路（蓝 vs 绿），最终的特征来源最终包含2个部分：

scene graph
3D CNN

其中scene graph的部分，对于视频中的每一帧经过scene graph predictor（先用Faster RCNN进行object detection，再用RelDN进行relationships prediction ）构建对应的graph，然后用类似long-term feature bank中的方法获取到graph对应的特征表示。

具体而言，图中看到的feature map是|O| x |R|大小的，|O|表示所有object的数目（已经包含person），|R|表示所有relationship的种类，其值等于对应object的置信度乘上对应relationship的置信度。然后对于每一帧，都把这个map展开作为这一帧的feature，最后对不同帧之间做一个融合得到scene-graph这一路得到的特征。

3D CNN这一路是取视频中比较短的片段过3D conv主导的网络，最终得到的feature，这样可以结合短距离信息和长距离信息。

四实验结果

介绍一下关于action recognition的结果：在Charader数据集上，通过用scene-graph features替换LFB（long-term feature bank）的feature banks ，能在SOTA的LFB上提升1.8% mAP。

另外还做了一个验证实验，假设真实的scene graph是存在的情况下，也就是直接用手工标注的GT进行scene-graph的构建，能在mAP上获得16%的提升。

五写在最后

现在的视频分类的文章基本都不在ucf，hmdb这种小数据集上做了==，感觉从科研的角度来说会越来越难，但是真的能出现一些更challenging更有意义的工作还是感觉很好的。

感谢阅读～

有问题欢迎交流。

论文 | CVPR2020 《Action Genome: Ac
一写在前面未经允许，不得转载，谢谢～～～这也是今年发表在CVPR上的文章，简单整理记录一下。主要信息：文...
跟着Nature Genetics学画图：R语言ggtree给进
今天推文重复的图来自于论文Whole-genome resequencing of 445 Lactuca ac...
跟着Nature Genetics 学画图：R语言ggplot2
今天推文重复的图来自于论文Whole-genome resequencing of 445 Lactuca ac...
跟着Nature Genetics学画图：R语言ggtree可视
今天推文重复的图来自于论文Whole-genome resequencing of 445 Lactuca ac...
文献笔记五十一：野生柑橘基因组与柑橘的驯化历史
论文 Genome of wild mandarin and domestication history of m...
文献笔记六十五：叶绿体基因组组装工具综述
论文题目 The landscape of chloroplast genome assembly tools 还...
跟着NatureGenetics学作图：R语言ggplot2做进
论文 Reference genome assemblies reveal the origin and evol...
实现可自由拖动的view
一.原理： 1.原理就是重写onTouchEvent方法，通过ACTION_DOWN，ACTION_MOVE，AC...
跟着Nature Genetics学画图：R语言ggbio包画基
论文是 Pan-genome analysis highlights the extent of genomic ...
跟着Nature Genetics学画图：R语言ggplot2画
论文是 Pan-genome analysis highlights the extent of genomic ...