论文笔记-MLP Mixer: An all-MLP Archi

作者: 升不上三段的大鱼 | 来源:发表于2021-08-09 22:25 被阅读0次

论文笔记-MLP Mixer: An all-MLP Archi
找分布式工作复习学习系列---常见大模型解读（八）
Network In Network
RcisTarget
Playing Sounds
反馈神经网络
Istio Mixer组件和服务的重要说明
嘟嘟嘟——为程序加入声音吧父与子的编程之旅学习笔记（17）2
MLP时代来临：在币圈熊市中零成本坐享百倍收益
人人都能懂的机器学习——用Keras搭建人工神经网络07

论文地址：MLP-Mixer: An all-MLP Architecture for Vision

1. 介绍

作者在这篇文章里提出了MLP-Mixer的结构，不使用卷积或者self-attention，而是完全基于多层感知器（MLP），应用于空间内置或者特征通道。这个结构只依赖于矩阵乘法，数据分布的改变以及标量非线性（basic matrix multiplication routines,
changes to data layout (reshapes and transpositions), and scalar nonlinearities）。

图1描述了Mixer的宏观结构。它接受一系列线性投影的图像补丁（也称为tokens）作为输入，形状为“ patch×channels”表，并保持该维度。Mixer使用两种类型的MLP层：channel-mixing MLPs和 token-mixing MLP。channel-mixing MLP允许不同信道之间的通信，它们独立地对每个token进行操作，并将表中的各行作为输入。Token mixing MLP允许不同空间位置（tokens）之间的通信；它们在每个通道上独立运行，并将表中的各个列作为输入。这两种类型的层是交错的，以实现两个输入维度的交互。

图1 MLP-Mixer 由 per-patch 线性嵌入、Mixer 层和分类器头组成。Mixer 层包含一个token-mixing MLP 和一个channel-mixing MLP，每个 MLP 由两个全连接的层和一个 GELU 非线性组成。其他组件包括：通道上的 skip-connection、dropout 和通道上的layer norm。

在极端情况下，这个MLP架构可以被看作是一个非常特殊的 CNN，它使用 1×1 卷积进行channel mixing，以及一个完整的感受野和参数共享的单通道深度卷积进行token mixing。然而，反之则不然，因为典型的 CNN 不是 MLP Mixer 的特例。此外，卷积比 MLP 中的普通矩阵乘法更复杂，需要对矩阵乘法进行额外的专门实现。

尽管很简单，但 Mixer 获得了具有竞争力的结果。当在大型数据集（即~100M 图像）上进行预训练时，它在 accuracy/cost 的权衡方面达到了之前 CNN 和 Transformers 声称的最先进的性能。这包括 ILSVRC2012 “ImageNet” 上 87.94% 的 top-1 验证准确率。当对规模较小的数据（即~1-10M 图像）进行预训练时，再加上正则化技术，Mixer 也实现了强大的性能。然而，与 ViT 类似，它在特殊设计的 CNN 架构比较时略显不足。

2. Mixer 构架

现代深度视觉体系结构通常包括以下各层用来混合特征：

(i)在给定的空间位置，
(ii)在不同的空间位置之间，
或同时在两个位置混合特征。

在CNN中，（ii）通过 $N×N$ 卷积（ $N>1$ ）和池化来实现。更深层的神经元具有更大的感受野。同时， $1×1$ 卷积也执行（i），更大的内核同时执行（i）和（ii）。在 Vision Transformers 和其他基于注意的架构中，self-attention 层可以做到（i）和（ii），MLP块执行（i）。Mixer 结构背后的思想是明确区分每位置（channel mixing）操作（i）和跨位置（token mixing）操作（ii）。这两种操作都是通过 MLP 实现的。

Mixer 将一系列不重叠的图像块作为输入，每个图像块都投影到所需的隐藏维度 $C$ 。这就生成了一个二维实值输入表， $X∈R^{S×C}$ 。如果原始输入图像具有分辨率 (H,W)，并且每个patch 具有分辨率(P,P)，则patch 的数量为 $S=HW/P^2$ 。所有 patches 都使用相同的投影矩阵进行线性投影。 Mixer由多个相同大小的层组成，每层由两个MLP块组成。第一个是 token-mixing MLP：它作用于 $X$ 的列，映射 $R^S→R^S$ ，并在所有列之间共享。第二个是 channel-mixing MLP：它作用于 $X$ 的行，映射 $R^C→R^C$ ，并在所有行之间共享。每个 MLP 块包括两层全连接层和非线性独立应用于其输入数据张量的每一行。Mixer 的层可以写成如下（省略了层索引）：
$U_{*,i} = X_{*,i} + W_2 \sigma (W_1 LayerNorm(x)_{*,i}), \quad i=1 \dots C$
$Y_{j,*} = X_{j,*} + W_4 \sigma (W_3 LayerNorm(x)_{j,*}), \quad j=1 \dots S$

这里 $\sigma$ 是一个单元级非线性（GELU)。 $D_S, D_C$ 分别是 token-mixing 和 channel-mixing MLP 中的可调隐藏宽度。需要注意的是 $D_S$ 的选择与 input patch 的数量无关。因此，网络的计算复杂度与 input patch 的数量呈线性关系，不像 ViT 的复杂度是二次的。由于 $D_C$ 与patch大小无关，因此整体复杂度与图像中的像素数呈线性关系，就像典型的CNN一样。

如上所述，对 $X$ 的每一行（或列）应用相同的 channel-mixing MLP（或token-mixing MLP）。在每一层内绑定 channel-mixing MLP 的参数提供了位置不变性，这是卷积的一个突出特征。但是，跨通道绑定参数的情况要少得多。例如，在某些 CNN 中使用的可分离卷积，将卷积应用于每个通道，独立于其他通道。然而，在可分离卷积中，不同的卷积核被应用于每个通道，不像 Mixer 中的token-mixing MLP，所有通道共享相同的核。参数绑定可以防止架构在增加隐藏维度 C 或者增加序列长度 S 时增长过快，可以节省内存。

Mixer 中的每一层（除了初始投影层）都采用相同大小的输入。这种“各向同性”设计与 Transformer 或其他领域中的深度 RNN 最相似，它们也使用固定宽度。这与大多数具有锥体结构的 CNN 不同（更深层的输入分辨率较低，但通道更多）。

除了 MLP 层之外，Mixer 还使用其他标准架构组件：跳层连接和层归一化。与 ViT 不同，Mixer 不使用位置嵌入，因为token-mixing MLP 对输入 token 的顺序很敏感。最后，Mixer 使用带有全局平均池化层的标准分类头，以及线性分类器。

3. 表现

图2

Mixer有着不输于其他模型的表现（不一定更好），但是结构更加简单，训练更快一点。

4. 代码实现

https://github.com/rwightman/pytorch-image-models/blob/master/timm/models/mlp_mixer.py

5. 讨论

注意到这个结构的输入是将图片分割成 patch，然后进行矩阵乘法操作，其实和卷积很相似，网上也有很多讨论，认为这个结构中的其他技巧（比如skip-connection 和 layer norm）的作用可能更大一些。

论文笔记-MLP Mixer: An all-MLP Archi
论文地址：MLP-Mixer: An all-MLP Architecture for Vision[https:...
找分布式工作复习学习系列---常见大模型解读（八）
GPT-3 MLP-Mixer Swich transformer (bert, vit已经介绍过，具体参考之前博...
Network In Network
论文《Network In Network》 Network In Network 1 MLP convoluti...
RcisTarget
笔记本堆里拣垃圾ing title: "updata"author: "MLP"date: "2021/7/12"...
Playing Sounds
通过调用pygame.mixer.Sound（）构造函数来创建一个pygame.mixer.Sound对象（我们...
反馈神经网络
1、Reference 多层感知机MLP（机器学习5）多层感知机原理详解 & Python与R实现深度学习笔记——...
Istio Mixer组件和服务的重要说明
[TOC] Istio Mixer组件和服务的重要说明 Mixer的Service和Pod 三个Service【s...
嘟嘟嘟——为程序加入声音吧父与子的编程之旅学习笔记（17）2
第十九章播放声音（1）mixer——混音器 mixer是Pygame专门处理声音的模块，用pygame.mix...
MLP时代来临：在币圈熊市中零成本坐享百倍收益
MLP，区块链技术打造的区块链云服务平台，将满足您分布式云服务新模式的所有想象。 MLP是什么？ MLP旨在为开发...
人人都能懂的机器学习——用Keras搭建人工神经网络07
使用Sequential API搭建回归MLP 前面的文章讲述了如何用Sequential API搭建分类MLP，...