微表情是人自发产生的一种面部肌肉运动,可以展现人试图掩盖的真实情绪。由于微表情面部肌肉变化幅度小、持续时间短所带来的识别准确率低的问题。
相关部分区域最近看了许多关于神经网络学习方面的特征提取方法,相比于传统类似于LBP-TOP方法,近些年来,神经网络的应用在特征提取方面被越来越多的人所运用,针对于微表情中面部肌肉变化幅度小、持续时间短问题,在这篇论文当中提出了时空注意力机制,当然,时空注意力机制是由空间注意力机制和时间注意力机制相结合在一起。
- 空间注意力模块:使模型的注意力集中在产生微表情强度更大的区域;
- 时间注意力模块:对微表情变化更大因而判别性更强的帧给予更大的权重。
对于微表情在一段视频中的变化,很多时候,我们只需要寻找到面部肌肉变化的区域,在视频中,时间变化上的动作是一个重要的特征变量。
首先,看看这篇论文中提出的网络结构:时空注意力网络( spatiotemporal attention network,STANet)
STANet1、空间注意力模块
空间注意力模块用于从每一帧中提取空间外观特征。
本文提出了空间注意力分支( SAB) 。SAB 常用于姿态估计,分为下采样和上采样两个阶段,形成了一个瓶颈结构。
下采样:
卷积和非线性映射用于提取微表情区域的显著特征,最大池化层用于降低特征图的分辨率,同时增大特征图的感受野。随着下采样层数的增加,感受野会逐渐增大,特征图的判别性会逐渐增强。
上采样:
使用双线性插值将特征图逐步恢复为原先大小。
双线性插值
1 2 3
空间注意力旨在提升关键区域的特征表达,本质上是将原始图片中的空间信息通过空间转换模块,变换到另一个空间中并保留关键信息,为每个位置生成权重掩膜(mask)并加权输出,从而增强感兴趣的特定目标区域同时弱化不相关的背景区域。这方面比较出色的工作有CBAM,它是在原有通道注意力的基础上,衔接了一个空间注意力模块(SAM)。
SAM是基于通道进行全局平均池化以及全局最大池化操作,产生两个代表不同信息的特征图,合并后再通过一个感受野较大的7×7卷积进行特征融合,最后再通过Sigmoid操作来生成权重图叠加回原始的输入特征图,从而使得目标区域得以增强。
image.png总的来说,对于空间注意力来说,由于将每个通道中的特征都做同等处理,忽略了通道间的信息交互;而通道注意力则是将一个通道内的信息直接进行全局处理,容易忽略空间内的信息交互。有实验验证先通道后空间的方式比先空间后通道或者通道空间并行的方式效果更佳。此外,类似的改进模块还有A2-Net所提出的Double Attention模块以及受SE-Net启发而提出的变体注意力模块scSE等等。
2、时间注意力模块
时间注意力分支( TAB) ,用于将注意力集中在微表情序列中判别性较强的帧。
TAB 是一个LSTM 结构。
LSTM 结构image.png
LSTM 结构详解:https://zhuanlan.zhihu.com/p/32085405
来源:知乎
在此直接可以看到原论文中的介绍。时间注意力模块,通过计算帧与其它帧之间的相关性程度,从而可以确定微表情中判别性较强的帧。
未完待续。。。。。。
网友评论