Non-local U-Nets for Biomedical

作者: 此间不留白 | 来源:发表于2020-03-11 20:08 被阅读0次

这些模型采用了更深的编码器，并且编码器的堆叠了许多局部运算，引入了大量训练参数，影响了模型的效率。尤其是更多的下采样运算，而每次下采样运算都会导致模型的特征图加倍，并且，下采样运算导致了在编码期间生物医学图像损失了关键的空间信息。
通过将下采样运算替换为上采样的方式构建解码器，就像反卷积层up-pooling层一样，也是局部运算，但是，上采样的过程涉及恢复图像的空间信息，如果只是局部信息而不考虑全局信息就很难做到。

为了解决以上问题，Non-local U-Nets提出了以下两个方案：

Non U-Net框架结构解析

经典U-Net中，输入首先经过编码提取低维特征，两个下采样模块用来减少图片空间大小并用来提取高维特征，每次下采样后，图片的通道都会增加两倍，Bottom Block用来汇聚全局信息并生成编码器的输出，同样，解码器使用两个上采样块为分割后的输出恢复空间大小，上采样操作后，特征图会减半。

Non U-Net提出了一种基于求和的跳跃连接方式，而不是经典U-Net中的串联形式，这种连接方式有以下两个优点：
(1) 求和连接不会增加特征图，但是却减少了训练参数
(2) 跳跃连接相当于整个网络增加了一个长范围的残差设计，有利于模型的训练。

Fig1

Non U-net残差结构设计的分析

论文作者基于U-Net模型的设计，提出了四种残差连接方式：

Fig2-c,Fig2-d

尽管全连接网络能够实现具有全局属性，但是在实践中容易过拟合，效果并不满意，作者在论文中提到了应用基于自主意力机制的全局全局信息汇聚块可以汇聚全局图像特征。将其进一步推广用于处理上采样和下采样的过程。

设定 $X$ 代表全局汇聚块的输入，而 $Y$ 代表全局汇聚块的输出，则基于自注意机制的全局汇聚块的设计分为以下几个步骤：

生成 Query(Q),Key(K)和Value(V)矩阵，如下公式所示，
自注意力机制在 $Q,K,V$ 上有如下定义：

以上公式可以解释为，Query每一个行向量与Key向量运算后，产生一个与Value向量对应的标量权重值，再通过Softmax运算后，生成 $(D_Q×H_Q×W_Q)×(D×H×W)$ 的向量，最后在所有与之相对应的 $Q,K,V$ 重复运算，得到一个 $(D_Q×H_Q×W_Q)×C_V$ 的矩阵。
最后一步的计算如下图所示，生成一个 $D×H×W×C_O$ 的四维矩阵