你的 ResNet 是时候更新了 —— ResNeSt 来也！

作者: CW不要无聊的风格 | 来源:发表于2020-05-01 02:50 被阅读0次

你的 ResNet 是时候更新了 —— ResNeSt 来也！
ResNest
你是时候更新你的朋友圈了
keras 实现 pytorch resnet.py
是时候更新自己的简历了
你来的是时候
是时候更新干货了
来更新了
Resnet
MaskRCNN代码详解（Facebook官方Pytorch版本

Date: 2020/04/30 夜晚 ~ 2020/05/01 凌晨

Author: CW

前言：

赶在月末，终于有时间写文了，最近工作上需求比较急，抽不出时间来简书更文，但我心早已狂热！在我敲上这行字的过程中，真的很开心，因为真心很享受这种静静地码字向别人分享学习心得的时光（虽然不知道有没有人看..）。OK，废话不多说，如今就为大家奉上这个新鲜出炉的新品 —— ResNeSt！

你没看错，是 ResNeSt 而不是 ResNet 哟！这是张航、李沐等大佬创造的 ResNet 改进版，在参数量没有显著增加的情况下显著提升了性能，并且可以很方便地如 ResNet 般集成到现有模型中。通过本文，我们就一起来看看它有多香吧！

此处附上 Paper & 源码

2020/05/05更新：

今天把 ResNeSt 用在了OCR场景上，在训练过程中发现源码有个bug，在 github 上提交了 issue（https://github.com/zhanghang1989/ResNeSt/issues/46），详见以下第III部分。

Outline

I. 主要思想

II. 分组的通道注意力机制：Split-Attention

III. 从代码出发，知行合一

主要思想

ResNeSt 很好懂，不复杂，说白了就是结合了 ResNeXt 的分组卷积和 SE-Net 的通道注意力机制，将通道进行分组，对每组运用注意力机制，同时保留了 ResNet 的残差结构。

分组的通道注意力机制：Split-Attention

SplAtConv2d

这部分我们来详谈分组的通道注意力是怎样一种操作，作者论述到可能的实现方式有多种，这里我先谈谈其中一种。

了解 ResNeXt 的朋友们都知道，其引入了 Cardinality 的概念，代表分组的组数，为方便叙述，这里记为 K；ResNeSt 则在此基础上进一步分组，称为 split 操作，同时引入一个超参 Radix，代表将 K 个组中的每一个进一步划分的组数，这里记为 R。这里的分组都是在通道这个维度上进行，由此看来，就是将输入在通道这个维度划分为 KxR 个组。

分组完毕后，对每个组实施不同的特征变换（Conv+Bn+Relu 等），然后将它们分成 R 份，这样每份就包含原来的 K 个组，对每一份应用投票机制形成注意力（Softmax or Sigmoid），接着将这 R 份注意力与特征图对应相乘（element-wise multiply），最后将这 R 份结果加起来（element-wise sum）形成输出，输出相当于对应了原来的 K 个组。

梳理下，可以知道注意力在是分了 K 个组后再分R个组上执行的，记 R 中的每一份为 r，K 中的每一份为k，那么每个 r 上得到的注意力是不同的，即每个 k split 下的每个 r 上的注意力不同，而同一个 r 下对应的不同 k 的注意力是一致的。

很奇妙，对于分得的K个组，每个组内切分R份分配不同的注意力，但不同组依次对应的这R份注意力却分别是一致的，是谓同又不尽全同！