论文:Dual Attention Network for Scene Segmentation
论文最早版本arXiv上的发表时间是2018.09,本文是论文v2版本笔记
CVPR 2019收录
Abstract
提出了双重注意网络(DANet)来自适应地集成局部特征和全局依赖。在传统的扩张FCN之上附加两种类型的注意力模块,分别模拟空间和通道维度中的语义相互依赖性。
- 位置注意力模块通过所有位置处的特征的加权和来选择性地聚合每个位置的特征。无论距离如何,类似的特征都将彼此相关。
- 同通道注意力模块通过整合所有通道映射之间的相关特征来选择性地强调存在相互依赖的通道映射。
- 将两个注意模块的输出相加以进一步改进特征表示,这有助于更精确的分割结果
Introduction
主要贡献:
- 提出了一个双重注意网络(DANet)来捕捉空间和通道维度中的全局特征依赖关系
- 建议使用位置注意力模块来学习特征的空间相互依赖性,并设计通道注意力模块来模拟通道相互依赖性。通过在局部特征上建模丰富的上下文依赖关系,显著改善了分割结果
- 在三个数据集Cityscapes, PASCAL Context和COCO Stuff上实现了state-of-the-art的结果
Related Work
略
Dual Attention Network
Overview
![](https://img.haomeiwen.com/i26804442/fc06c08b0eeb7216.jpg)
- 采用 Dilated ResNet (DeepLab V2的主干网络)作为主干,删除了下采样操作并在最后两个ResNet块中使用了空洞卷积,最终特征映射的大小是输入图像的1/8
- Dilated ResNet 产生的特征图再送入两个平行的注意力模块中
- 最后汇总两个注意力模块的输出特征,以获得更好的像素级预测特征表示
Position Attention Module
![](https://img.haomeiwen.com/i26804442/62b78f39a723a892.jpg)
E的每个位置的值是原始特征每个位置的加权求和得到的:
- 特征图A(C×H×W)首先分别通过3个卷积层得到3个特征图B,C,D,然后将**B,C,D **reshape为C×N,其中N=H×W
- 之后将reshape后的B的转置(NxC)与reshape后的C(CxN)相乘,再通过softmax得到spatial attention map S(N×N)
- 接着在reshape后的D(CxN)和S的转置(NxN)之间执行矩阵乘法,再乘以尺度系数α,再reshape为原来形状,最后与A相加得到最后的输出E
- 其中α初始化为0,并逐渐的学习得到更大的权重
Channel Attention Module
![](https://img.haomeiwen.com/i26804442/774b6b8fae65135c.jpg)
每个通道的最终特征是所有通道和原始特征的加权和:
- 分别对A做reshape(CxN)和reshape与transpose(NxC)
- 将得到的两个特征图相乘,再通过softmax得到channel attention map X(C×C)
- 接着把X的转置(CxC)与reshape的A(CxN)做矩阵乘法,再乘以尺度系数β,再reshape为原来形状,最后与A相加得到最后的输出E
- 其中β初始化为0,并逐渐的学习得到更大的权重
Attention Module Embedding with Networks
- 两个注意力模块的输出先进行元素求和以完成特征融合
- 再进行一次卷积生成最终预测图
网友评论