论文 | CVPR2020 《Action Genome: Ac

作者: 与阳光共进早餐 | 来源:发表于2020-06-25 09:56 被阅读0次

    一 写在前面

    未经允许,不得转载,谢谢~~~

    这也是今年发表在CVPR上的文章,简单整理记录一下。

    主要信息:

    二 主要内容

    2.1 相关背景

    以action recognition为代表的视频理解任务通常将视频当成一个单独的动作进行分析。相对应地,很多数据集对一个视频也用一个action进行标注。

    虽然在图像领域,像scene graph这样的结构化表示已经被证明可以在很多任务上提升模型的性能。但在视频领域,视频动作的拆解(objects以及relationship的对应关系)还处于under-explored状态。

    在认知科学也有研究支持人类会将长的视频分成几段以便理解。

    2.2 本文工作

    1. 在视频领域,提出Action Genome,将动作表示成spatio-tempoal scene graph的形式。

    以“person sitting on a sofa“为例,Action Genome在其对应的帧上进行object和relation的注释:

    • object:person,sofa
    • relation:<person next to sofa>, <person in front of sofa>, <person sitting on sofa>
    1. 基于Charades构建含有scene-graph的数据集:Action Genome

    按照上面所示的例子,对视频进行sene-graph的标注工作,具体包括object以及relation;

    最后的数据集包含:

    • 157 action categories;
    • 234K video frames;
    • 476K bounding boxes;
    • 1.72M relationships
    1. 在三种任务上进行了scene graph对于视频理解的帮助:
    • action recognition
    • few-shot action recognition
    • spatio-temporal scene graph prediction

    三 具体方法

    3.1 Action Genome dataset

    先简单介绍一下scene graph:

    • node:object(物体对应图里的节点)
    • edge:realtionship(物体之间的关系对应图中节点之间的边)

    对应数据集的标注与构建:

    • 整个数据集是基于Charades构建起来的;
    • 标注的方法是action-oriented sampling strategy (以视频中的action为导向进行标注)
    • 具体对应这个图进行解释:

    对于视频中的每个action(不同的颜色段),在这个时间范围内统一sample 5帧进行注释。假设一段视频中有4个actions(action本身可包含,可覆盖),那总共会有4x5=20帧视频帧被标注到。

    具体的标注形式如图所示,先标出跟这个action相关的object(bounding box),然后再标注relationships。

    其中总共包含3类realtionships:

    • attention(looking or not)
    • spatial (空间位置)
    • contact (交互方式)

    最后的数据集信息:

    • 234253 frames
    • 35 object classes, 476229 bounding boxes
    • 25 relationship classes,1715568 instances

    3.2 方法

    方法部分相对比较简单,主要就是构建scene-graph,然后获取最终的representation。

    看颜色的线路(蓝 vs 绿),最终的特征来源最终包含2个部分:

    1. scene graph
    2. 3D CNN

    其中scene graph的部分,对于视频中的每一帧经过scene graph predictor(先用Faster RCNN进行object detection,再用RelDN进行relationships prediction )构建对应的graph,然后用类似long-term feature bank中的方法获取到graph对应的特征表示。

    具体而言,图中看到的feature map是|O| x |R|大小的,|O|表示所有object的数目(已经包含person),|R|表示所有relationship的种类,其值等于对应object的置信度乘上对应relationship的置信度。然后对于每一帧,都把这个map展开作为这一帧的feature,最后对不同帧之间做一个融合得到scene-graph这一路得到的特征。

    3D CNN这一路是取视频中比较短的片段过3D conv主导的网络,最终得到的feature,这样可以结合短距离信息和长距离信息。

    四 实验结果

    介绍一下关于action recognition的结果:在Charader数据集上,通过用scene-graph features替换LFB(long-term feature bank)的feature banks ,能在SOTA的LFB上提升1.8% mAP。

    另外还做了一个验证实验,假设真实的scene graph是存在的情况下,也就是直接用手工标注的GT进行scene-graph的构建,能在mAP上获得16%的提升。

    五 写在最后

    现在的视频分类的文章基本都不在ucf,hmdb这种小数据集上做了==,感觉从科研的角度来说会越来越难,但是真的能出现一些更challenging更有意义的工作还是感觉很好的。

    感谢阅读~

    有问题欢迎交流。

    相关文章

      网友评论

        本文标题:论文 | CVPR2020 《Action Genome: Ac

        本文链接:https://www.haomeiwen.com/subject/fyajfktx.html