【CV论文笔记】Rethinking on Multi-Stag

作者: 蘑菇轰炸机 | 来源:发表于2020-03-18 22:25 被阅读0次

本文主要用于介绍与人体关键点预测相关的MSPN网络。本笔记主要为方便初学者快速入门，以及自我回顾。

论文链接：https://arxiv.org/pdf/1901.00148.pdf

基本目录如下：

摘要
核心思想
总结

------------------第一菇 - 摘要------------------

1.1 论文摘要

现有的姿态预测模型基本都是2个套路，要么是单阶段的（single-stage），要么就是多阶段的（multi-stage）方法。虽然多阶段的模型看起来总是合理靠谱不少，但是他们最近的实践表现却总是不如单阶段的模型。本论文就是专门研究这种情况的。我们认为现有的多阶段模型不靠谱的原因来自于一些设计上的缺陷。因此，我们提出了很多新的改进，包括单阶段的模型设计，交叉特征叠加，还有coarse-to-fine的监督。我们新的方法刷新了COCO数据的记录～开源代码地址为https://github.com/megvii-detection/MSPN

------------------第二菇 - 核心思想------------------
论文开头提出的疑问就是，在COCO数据集上，多阶段的模型架构，似乎表现的都不如单阶段的模型架构。而这种现象是与我们的第一直觉相违背的，因此，本论文的主要工作就是为了去仔细研究一下其背后的原理，探究多阶段模型的设计问题。

而本文也提出了一种多阶段的姿态关键点网络（MSPN, multi-stage pose estimation network）。简单来说，有3个提升的方面，
1）我们注意到现有的多阶段的方法的single-stage module都不够优秀。比如Hourglass module在各个模块中的所有层的channels个数都相同。这种设计很明显与现今一些好的模型架构设计不符。我们发现只是简单的采用现今架构中的一些网络（比如CPN中的GlobalNet），就能够取得比较好的效果。
2）重复的上下采样过层（即级联结构）会造成信息的丢失，从而使得最后的优化变的困难。而我们提出了一种方法用于将各个阶段的特征信息进行整合，从而减少在训练时信息丢失的情况。
3）我们发现在多阶段的过程中姿态的定位会越来越精细，因此我们采用了一种coarse-to-fine监督训练策略。

大致理解了上述的设计指导思想之后，我们再来具体看看MSPN网络架构。

2.1 MSPN网络架构

直接先上一张论文中也贴出的网络架构图如下，

MSPN网络架构图.jpg

论文中描述到，利用了CPN中的ResNet-based GlobalNet，作为single-stage module，可以很清晰的从上图中看到，不同的尺度下提取出的特征会被一起用于之后的预测。这里论文还强调了一件事情，该架构本身并不是新颖的创新，但是将其用于多阶段的架构中，那尚属首次😄～

2.1.1 Cross Stage Feature Aggregation

因为之前作者分析提到多阶段存在信息丢失的问题，因此本文特别提出了一种新的跨阶段的特征融合方式，具体的连接就如上黄色线条所示。在每一个阶段中，下采样和上采样都会分别将特征信息通过一个简单的 $1*1$ 卷积，一起输入到下一阶段中（可以视为是跨阶段的残差连接），具体的示意图如下，

特征融合方式.jpg

2.1.2 Coarse-to-fine Supervision

因为每一个阶段对关键点预测出的精度也不一样，因此作者提出了一种新的监督训练方式，核心其实就是一句话，

we further propose to use different kernel sizes of the Gaussian in different stages

其实很好理解，就是在开始的阶段允许有较大的误差，然后逐步提高标准。直接看一下原文中的示意图，应该也是一目了然，

不同阶段训练示意图.jpg

至此，整一套网络设计已经讲明白了，我们再来看一下实验的一些结论。

2.2 实验结论

我们直接来看几张结果表，

实验结果1.jpg

作者设定了stage个数为1的时候，不同的模型对算法的效果影响，很明显，随着网络复杂度增加，模型效果的提升越来越不明显。

实验结果2.jpg

其中图形化的结果对比如下，

实验结果3.jpg

很明显的可以发现，随着stage的个数增加，自然网络的精度也在增加，但是MSPN的增加最为明显。

实验结果4.jpg

明显可以看出，采用了CTF的策略相比于CSFA的策略提升会更加明显一些。

至此，主要的实验结论也介绍完了。可以发现，本文的创新并不多，但主要是提出的几点改进，非常不错，很有借鉴意义。

------------------第三菇 - 总结------------------

3.1 总结

到这里，整篇论文的核心思想已经说清楚了。本论文主要是针对多阶段的姿态识别模型提出了几点改进意见，并提出了一种新的网络结构MSPN，并对此改进提供了充实的理论依据和实验证明，为后续发展奠定了基础。

简单总结一下本文就是先罗列了一下该论文的摘要，再具体介绍了一下本文作者的思路，也简单表述了一下，自己对整个MSPN网络的理解。希望大家读完本文后能进一步加深对该论文的理解。有说的不对的地方也请大家指出，多多交流，大家一起进步～😁

网友评论

本文标题：【CV论文笔记】Rethinking on Multi-Stag

本文链接：https://www.haomeiwen.com/subject/nmgmehtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！