文章名称
【CVPR-2021】【Nanyang Technological University, Singapore/Gaoling School of Artificial Intelligence/Damo Academy, Alibaba Group】Counterfactual VQA: A Cause-Effect Look at Language Bias
核心要点
文章旨在解决现有VQA方法容易受到语言偏差的影响,无法有效学习多模态知识信息的问题。虽然一些方法能够直接在预测环节排除了语言偏置的影响,但这种做法可能忽略上下文信息。作者利用因果推断方法,从整体效果中减去语言偏差的因果效应,以此消除语言偏差。
上节介绍了VQA中存在的语言偏差,以及作者从causal inference角度解决偏差的思路,并简单回顾了TE,NDE和TIE等因果效应。本节继续介绍CF-VQA的实现方法。
研究背景
如前所述,VQA场景存在一定的训练数据中语言偏差的影响,并且现有方法不能够在去除偏差影响的情况下有效的保留上下文信息。基于这个问题问题,作者提出了基于因果推断的CF-VQA,其核心思路是从VQA的整体因果效应TE中去掉Question偏差的NDE,得到最终的TIE,并最大化TIE选择答案。
方法细节
CF-VQA
causal view
CF-VQA方法的因果图如下图所示。其中,分别表示question和visual picture对答案的(直接)单模态影响。而
表示两种输入的多模态影响(因为融合成了知识
)。值得注意的是,VQA是一个多分类问题,得到的结果实际上是一个概率值,
,而
表示多模态知识的因果关系。这样
展示了整个因果关系的结果(个人感觉可以被理解为SEM吧)。在实际进行估计时,我们是估计
的所有观测值的概率,并消除偏差的影响,因此可以不是一般性的去掉notation
。此时,输入为
时相对no-treatment输入(一般是空向量或平均向量表示)的total effec可以表示为
。
![](https://img.haomeiwen.com/i1767638/1d5ecfd55f207bbc.png)
如前所述,VQA中的question存在语言偏差,因此期望通过干预消除掉该偏差的影响。其操作方式如上图子图b所示。
- 首先计算
的
。
- 从TE中去除掉
的NDE,得到整体的
。
最终返回的通过最大化TIE得到。
implementation
CF-VQA的实现框架如下图(子图c)所示。分别表示通过神经网络从
输入中学习的整个预测结果(其实就是类似原来的VQA),只不过
分别表示三个单独的网络,去学习
的单模态结果,以及多模态结果。
![](https://img.haomeiwen.com/i1767638/435654f740896246.png)
为了计算所谓的no-treatment效果(因为我们要利用这个值计算去除掉偏差后的因果效应),作者没有采用或所有训练集中的平均作为这个no-treatment向量,而是采用了一个可训练的向量
进行E2E的学习。具体公式如下图所示,其中
表示no-treatment。
![](https://img.haomeiwen.com/i1767638/5f2c6afb1d59d985.png)
![](https://img.haomeiwen.com/i1767638/ae68b111cb34c356.png)
融合的时候,也就是作者采用了Harmonic (HM)和SUM两种方法,具体公式如下图所示。
![](https://img.haomeiwen.com/i1767638/7bfe1caeef6bb3a9.png)
在训练时,作者采用了两种loss,
classification loss。作者采用cross-entropy losses来进行分类监督训练,只不过训练的是三个部分的模型,具体损失目标如下图所示。
classification loss
sharpness loss。作者采用KL散度来促使NDE的分布与TE的分布接近。这样做的原因是,因为
是学习出来的,这个过程中可能不稳定,会出现一些(极端)不合理的值,如果两者的分布不一样,比如NDE更尖锐一点,那么可能整个TIE的结果就被NDE主导了。具体损失目标如下图所示,其中
。
sharpness loss
直达注意的是,作者提到RUBi [11] 和 Learned-Mixin [14]可以被视作是CF-VQA的一个特例,其结构如Figure4(b)所示。并且这两者相当于利用了NIE来学习答案(两者的对比如下图所示),具体可以参见原文附录。
![](https://img.haomeiwen.com/i1767638/850b24583f3d5c18.png)
心得体会
NIE
作者提到RUBi [11] 和 Learned-Mixin [14]是利用NIE进行偏差消除和模型训练的。可以看到Figure 5中的因果图里,去掉了的直接影响。个人理解,其实图片肯定也会存在偏差,所以应该也需要去除掉这部分的影响,只是文章里没有显示的提出来。而且Figure5和Figure3的跳变似乎没有在正文中看到解释。也许需要在附录中寻找答案。
文章引用
[1] Ehsan Abbasnejad, Damien Teney, Amin Parvaneh, Javen Shi, and Anton van den Hengel. Counterfactual vision and language learning. In Proceedings of the IEEE/CVF Con- ference on Computer Vision and Pattern Recognition, pages 10044–10054, 2020. 1, 3, 6
[3] Aishwarya Agrawal, Dhruv Batra, Devi Parikh, and Anirud- dha Kembhavi. Don’t just assume; look and answer: Over- coming priors for visual question answering. In Proceed- ings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4971–4980, 2018. 1, 2, 6, 7, 11
[8] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. Vqa: Visual question answering. In Proceedings of the IEEE international conference on computer vision, pages 2425– 2433, 2015. 1, 2
[11] Remi Cadene, Corentin Dancette, Matthieu Cord, Devi Parikh, et al. Rubi: Reducing unimodal biases for visual question answering. Advances in Neural Information Pro- cessing Systems, 32:841–852, 2019. 1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12
[12] Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, and Yueting Zhuang. Counterfactual samples synthesiz- ing for robust visual question answering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10800–10809, 2020. 1, 3, 6, 7
[14] Christopher Clark, Mark Yatskar, and Luke Zettlemoyer. Don’t take the easy way out: Ensemble based methods for avoiding known dataset biases. In Proceedings of the 2019
[19] Tejas Gokhale, Pratyay Banerjee, Chitta Baral, and Yezhou Yang. Mutant: A training paradigm for out-of-distribution generalization in visual question answering. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 878–892, 2020. 1, 6, 7
[20] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Ba- tra, and Devi Parikh. Making the v in vqa matter: Elevating the role of image understanding in visual question answer- ing. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6904–6913, 2017. 1, 2, 11
[21] Yash Goyal, Ziyan Wu, Jan Ernst, Dhruv Batra, Devi Parikh, and Stefan Lee. Counterfactual visual explanations. In In- ternational Conference on Machine Learning, pages 2376– 2384. PMLR, 2019. 3
[27] Kushal Kafle and Christopher Kanan. An analysis of visual
question answering algorithms. In Proceedings of the IEEE International Conference on Computer Vision, pages 1965– 1973, 2017. 1, 2
[31] Zujie Liang, Weitao Jiang, Haifeng Hu, and Jiaying Zhu. Learning to contrast the counterfactual samples for robust vi- sual question answering. In Proceedings of the 2020 Confer- ence on Empirical Methods in Natural Language Processing (EMNLP), pages 3285–3292, 2020. 1, 6, 7
[58] Xi Zhu, Zhendong Mao, Chunxiao Liu, Peng Zhang, Bin Wang, and Yongdong Zhang. Overcoming language priors with self-supervised learning for visual question answering. arXiv preprint arXiv:2012.11528, 2020. 1, 3, 6, 7
网友评论