ABSTRACT
最近,与单模态学习相比,基于大规模数据集的联合视觉和语言建模在多模态任务中取得了良好的进展。然而,这些方法对现实世界扰动的鲁棒性尚未研究。在这项工作中,我们对这些模型进行了第一次广泛的鲁棒性研究,研究对象是视频和语言。我们专注于文本到视频检索,并提出了两个大型基准数据集,MSRVTT-P和YouCook2-P,它们利用了90种不同的视觉和35种不同的文本扰动。研究揭示了一些有趣的发现:1)所研究的模型在文本受到干扰时比视频受到干扰时更为稳健,2)与word embedding方法相比,transformer text encoder在非语义变化的文本干扰和视觉干扰方面更为稳健,3) 分开来使用两个分支encoder通常比architectures 使用 cross-attention时更健壮。我们希望这项研究将作为一个基准,并指导鲁棒多模态学习的未来研究
网友评论