美文网首页
【CV论文笔记】Rethinking on Multi-Stag

【CV论文笔记】Rethinking on Multi-Stag

作者: 蘑菇轰炸机 | 来源:发表于2020-03-18 22:25 被阅读0次

    本文主要用于介绍与人体关键点预测相关的MSPN网络。本笔记主要为方便初学者快速入门,以及自我回顾。

    论文链接:https://arxiv.org/pdf/1901.00148.pdf

    基本目录如下:

    1. 摘要
    2. 核心思想
    3. 总结

    ------------------第一菇 - 摘要------------------

    1.1 论文摘要

    现有的姿态预测模型基本都是2个套路,要么是单阶段的(single-stage),要么就是多阶段的(multi-stage)方法。虽然多阶段的模型看起来总是合理靠谱不少,但是他们最近的实践表现却总是不如单阶段的模型。本论文就是专门研究这种情况的。我们认为现有的多阶段模型不靠谱的原因来自于一些设计上的缺陷。因此,我们提出了很多新的改进,包括单阶段的模型设计,交叉特征叠加,还有coarse-to-fine的监督。我们新的方法刷新了COCO数据的记录~开源代码地址为https://github.com/megvii-detection/MSPN

    ------------------第二菇 - 核心思想------------------
    论文开头提出的疑问就是,在COCO数据集上,多阶段的模型架构,似乎表现的都不如单阶段的模型架构。而这种现象是与我们的第一直觉相违背的,因此,本论文的主要工作就是为了去仔细研究一下其背后的原理,探究多阶段模型的设计问题。

    而本文也提出了一种多阶段的姿态关键点网络(MSPN, multi-stage pose estimation network)。简单来说,有3个提升的方面,
    1)我们注意到现有的多阶段的方法的single-stage module都不够优秀。比如Hourglass module在各个模块中的所有层的channels个数都相同。这种设计很明显与现今一些好的模型架构设计不符。我们发现只是简单的采用现今架构中的一些网络(比如CPN中的GlobalNet),就能够取得比较好的效果。
    2)重复的上下采样过层(即级联结构)会造成信息的丢失,从而使得最后的优化变的困难。而我们提出了一种方法用于将各个阶段的特征信息进行整合,从而减少在训练时信息丢失的情况。
    3)我们发现在多阶段的过程中姿态的定位会越来越精细,因此我们采用了一种coarse-to-fine监督训练策略。

    大致理解了上述的设计指导思想之后,我们再来具体看看MSPN网络架构。

    2.1 MSPN网络架构

    直接先上一张论文中也贴出的网络架构图如下,

    MSPN网络架构图.jpg

    论文中描述到,利用了CPN中的ResNet-based GlobalNet,作为single-stage module,可以很清晰的从上图中看到,不同的尺度下提取出的特征会被一起用于之后的预测。这里论文还强调了一件事情,该架构本身并不是新颖的创新,但是将其用于多阶段的架构中,那尚属首次😄~

    2.1.1 Cross Stage Feature Aggregation

    因为之前作者分析提到多阶段存在信息丢失的问题,因此本文特别提出了一种新的跨阶段的特征融合方式,具体的连接就如上黄色线条所示。在每一个阶段中,下采样和上采样都会分别将特征信息通过一个简单的1*1卷积,一起输入到下一阶段中(可以视为是跨阶段的残差连接),具体的示意图如下,

    特征融合方式.jpg
    2.1.2 Coarse-to-fine Supervision

    因为每一个阶段对关键点预测出的精度也不一样,因此作者提出了一种新的监督训练方式,核心其实就是一句话,

    we further propose to use different kernel sizes of the Gaussian in different stages

    其实很好理解,就是在开始的阶段允许有较大的误差,然后逐步提高标准。直接看一下原文中的示意图,应该也是一目了然,

    不同阶段训练示意图.jpg

    至此,整一套网络设计已经讲明白了,我们再来看一下实验的一些结论。

    2.2 实验结论

    我们直接来看几张结果表,

    实验结果1.jpg

    作者设定了stage个数为1的时候,不同的模型对算法的效果影响,很明显,随着网络复杂度增加,模型效果的提升越来越不明显。

    实验结果2.jpg

    其中图形化的结果对比如下,

    实验结果3.jpg

    很明显的可以发现,随着stage的个数增加,自然网络的精度也在增加,但是MSPN的增加最为明显。

    实验结果4.jpg

    明显可以看出,采用了CTF的策略相比于CSFA的策略提升会更加明显一些。

    至此,主要的实验结论也介绍完了。可以发现,本文的创新并不多,但主要是提出的几点改进,非常不错,很有借鉴意义。

    ------------------第三菇 - 总结------------------

    3.1 总结

    到这里,整篇论文的核心思想已经说清楚了。本论文主要是针对多阶段的姿态识别模型提出了几点改进意见,并提出了一种新的网络结构MSPN,并对此改进提供了充实的理论依据和实验证明,为后续发展奠定了基础。

    简单总结一下本文就是先罗列了一下该论文的摘要,再具体介绍了一下本文作者的思路,也简单表述了一下,自己对整个MSPN网络的理解。希望大家读完本文后能进一步加深对该论文的理解。有说的不对的地方也请大家指出,多多交流,大家一起进步~😁

    相关文章

      网友评论

          本文标题:【CV论文笔记】Rethinking on Multi-Stag

          本文链接:https://www.haomeiwen.com/subject/nmgmehtx.html