Attention U-Net

作者: zelda2333 | 来源:发表于2020-01-09 10:17 被阅读0次

Attention U-Net
U-Net及其衍生网络
（17）图像分割——U-Net
注意力的英语表达
基于pytorch编写Unet进行细胞结构分割
翻译：3D U-Net: Learning Dense Volu
《TernausNet: U-Net with VGG11 En
U-Net 论文笔记
Attention
Paying Attention and Getting Att

论文：https://arxiv.org/pdf/1804.03999.pdf
论文翻译1
论文翻译2

亮点：

将注意力机制应用于UNet分割网络中，可以比较好的实现对显著性区域的关注，以及对无关背景区域的抑制。
注意力模型可以很好的嵌入到CNN框架中，而且不增加计算量的同时提高模型性能。

架构

model

attention模块用在了skip connection上，原始U-Net只是单纯的把同层的下采样层的特征直接concate到上采样层中，改进后的使用attention模块对下采样层同层和上采样层上一层的特征图进行处理后再和上采样后的特征图进行concate
attention模块

attention
Attention coefficients（取值0~1）与feature map相乘，会让不相关的区域的值变小（抑制），target区域的值变大（Attention）。

这是3D的数据，F代表 feature( channel)，H 代表 height, W 代表 width， D代表 depth,就是3D数据块的深度。
Attention的意思是，把注意力放到目标区域上，简单来说就是让目标区域的值变大。

看下面这张图，xl本来是要直接通过跳跃连接和g上采样的结果进行concat，这里先对xl和g转成一样的size，然后相加，relu, sigmoid得到attention 系数后再与xl相乘。

为什么这样就能让注意力放到target区域呢？

文中提到要结合上下文的信息，其实上代表xl，g代表下，因为g学到的东西更多，信息更准确。为什么要加g呢？加g是很重要的，没有g就没有办法实现注意力系数的训练更新。我是这么理解的：g里面的信息，就是注意力该学习的方向。可以这么想，如果直接将g上采样一次得到g'，g'和xl的size一样。那么同样是target的区域的像素值，g'里的像素值会比xl里的像素值大，和xl叠加，就相当于告诉了xl应该去学习的重点。

把g里的信息叠加到xl，再通过训练使得attention 系数的值在0~1之间（让注意力更集中），让target区域的值趋近1，不相关的区域趋近0。

最后，让xl与attention coefficients相乘，相乘的结果里，就能把注意力放到目标区域上了。