读ACMR论文后,自己的理解。主要分析框架。
为什么使用ACMR方法

1.核心思想
第一次结合了跨模态检索和对抗学习的监督表示学习,特征映射器和模态分类器两个过程间的相互作用
1.框架

基于极大-极小对抗机制
第一模态分类器,区分目标的模态,也就是区分输入的是图像还是文本,
第二特征生成器,用来生成适应不同模态的特征表达,来迷惑模态分类器最终让MC不能区分输入的是图像还是文本
2.对于模态分类器和特征生成器的关系

(1)为了缓解不同模态之间的差异,引入了立即反馈信号,来特征映射器的学习过程
(2)同时进行标签预测和结构保存,能够生更加有效的特征
生成器开始把投影到公共空间的特征送入判别器中,让判别器区分输入的是文本还是图像,若模态分类器loss的值很大,就反馈给特征生成器,在这种不断的对抗学习中,对同一语义的图片和文本描述,将会在特征空间中逐步靠近。当模态分类器无法再区分出输入的是文本还是图像即模态分类器loss值很小的时候,特征生成器在同一个空间学习到特征表达
3.模态分类器
模态分类器的任务是通过区分公共子空间中的样本来自哪个模态,来提升特征映射器的表征学习能力

根据投影到公共空间的特征,来输出数据属于图像或文本的概率,要最终使模态分类器最终无法区分输入是图像还是文本,就是要使loss越小越好,这里使用的是softmax函数
4.特征生成器
希望模型最后学习到图像和文本在公共子空间中的特征表达,能够生成更有效的特征,用标签预测和结构保存的方法对特征进行处理。
标签预测的目的是保证样本语义标签在样本被映射到公共子空间时不发生改变。
结构保持的目的是,最大限度缩小具有相同语义标签样本之间的距离。当样本被映射到公共子空间时。
标签预测与结构保持的联合作用如图2-4(a)所示,在图中,圆圈表示图像,矩形表示文本,不同颜色表示不同语义类。结构保持的优化工程如图2-4(b)所示,具有相同语义类的项(图像-文本)相互靠近,不同语义类的项(图像-文本)相互远离。

对图片我的理解:标签预测就是在a 中颜色(语义标签)相同的,在公共子空间中的颜色也是一样的,不会由蓝色变为红色
结构报保存就是B的过程,让颜色相同的相互靠近,颜色不同的尽量远离
4.1标签预测

根据投影到公共空间的特征来输出数据属于某一类的概率,从而进行语义标签(分类)的区分
4.2结构保存


5.对抗学习:优化
学习目标是使得adversarial loss 和 embedding loss 最小,将两者结合起来,使用 minimax game 来优化如下两个公式

网友评论