作者丨周鹏
学校丨中山大学硕士
研究方向丨计算语言学,二语加工、认知与教学
讽刺是一种普遍存在的语言现象,由于其主观性、缺乏语境和深刻的见解,解释起来极具挑战性。来自印度因陀罗普罗司泰信息技术研究所的学者对此提出一种基于自然语言生成的多模态讽刺解释(MuSE)——给定一个包含图像和标题的多模态讽刺文本,生成一个自然语言解释来揭示预期的讽刺。
为此,他们开发了MORE,一个新的数据集,解释了3510篇多模态讽刺文章。每个解释都是一个自然语言(英语)句子,描述隐藏的反讽。通过采用基于多模式转换器的体系结构来进行更多的基准测试。它在Transformer的编码器中包含了一个跨模式注意,它注意两种模式之间的区别特征。随后,使用基于BART的自回归解码器作为生成器。实证结果表明,在五个评估指标的不同基线(MuSE采用)上得出了令人信服的结果。他们还对预测反讽进行人类评估,并获得Fleiss的Kappa分数0.4,这是25名评估人员之间得出的公平一致性。
源代码和数据集:
https://github.com/LCS2-IIITD/MultimodalSarcasm-Explanation-MuSE.
MuSE任务的实例和主要贡献
实例:
讽刺指使用讽刺或讽刺的陈述来伤害、侮辱或冒犯某人。这种陈述的表面含义通常不同于预期的含义,要理解讽刺,人们需要知道该陈述时的上下文。Joshi,Sharma和Bhattacharyya(2015)认为不协调的存在是讽刺的重要信号。而在MuSE模型中,它不仅能发现讽刺,而且能揭示隐含的讽刺,这对于从电子商务中的反馈分析到敏感的社交媒体分析等各种应用来说,理解为什么讽刺的内容就像以讽刺的形式检测负面情绪一样重要。该任务以一个多模态(图片及其标题)的讽刺文本作为输入,目的是生成一个自然的语言句子来解释讽刺文本中预期的讽刺。下面图1就是MuSE任务的一个实例,图片显示有一辆车停在一栋大楼前,上面有用户写的讽刺标题“这家伙在停车时得到了一颗金星;”。考虑到跨模态的不协调(图片和标题的不协调),我们可以意识到用户突出了不当停车,因为它部分覆盖了为残疾人预留的停车位。 作为MuSE任务的结果,我们对这个讽刺的文本进行类似的解释。
▲ 图1
标题(讽刺的话语):这家伙因为停车而获得金星。
解释:这个家伙把车部分停在了残疾人停车位上。
非讽刺的话语:这个家伙不会因为停车不好而获得金星。
MuSE的制定:
突变的任务不同于使用注意力热图(attention heatmaps)的传统可解释系统或类似的机制来解释模型行为(e.g., SHAP (Parsa et al. 2020),LIME (Pramanick et al. 2021; Mahajan, Shah, and Jafar 2021), etc.),相比之下,我们将讽刺解释作为一个自然语言生成任务。因此,MuSE的输出需要是一个连贯的英语句子。我们对MuSE的正式定义如下:对于一个给定的多模态讽刺文本P= ⟨I, T[t1, t2, ..., tN ]⟩,其中 I 和 T[]分别表示图像和标题,而T是标题中的标记,我们的目的是通过生成一个自然语言解释E[e1,e2,...,eD] 来揭示预期的讽刺, 其中∀ti, ej ∈ V ocabEnglish(ej 表示解释中的标记)。
该任务的贡献和创新:
我们在图1中提取了MuSE任务和Dubey,Joshi,Bhattacharyya(2019)提出的非讽刺解读任务之间的区别。第一个区别是,与基于文本的非讽刺解释相比,在 MuSE 中加入了多模态。第二个和最主要的区别是,非讽刺的解释主要是对讽刺文本的否定。相比之下,MuSE 的定义是为了解 释不协调——不一定是使用否定。
主要贡献在四个方面:
• 我们介绍了MuSE,一个新的任务,旨在为一个给定的讽刺文本生成一个自然语言的解释来解释预期的讽刺。据我们所知,这是第一次试图解释有意的讽刺。
• 我们开发了MORE,一个新的数据集,包括3510个三元组(图像、标题和解释)。
• 我们用一个新的基于变压器的编码器-解码器模型进行基准测试,它将作为一个强大的基线。实证结果表明, 五个评价指标优于所采用的现有模型。
• 我们进行了广泛的人类评估,以衡量我们所提出的模型所产生的解释的一致性和凝聚力。
数据集和基准模型
为了解决 MuSE 问题,我们整理了MORE,一个新颖的多模态讽刺解释数据集,包括 3510 篇讽刺文章和由专家注释者手工生成的自然语言解释。为了进一步进行基准测试,我们设计了一个基于变压器的编码器- 解码器模型。我们使用两个编码器,每个编码器的文本和图像来获得模态上的潜在表示,然后加入一个跨模态注意模块。最后,在管道中添加了一个基于bart的解码器来进行解释生成。
数据集MORE:
由于MuSE需要一个讽刺的文本,我们探索了两个现有的多模态讽刺检测数据集-(Schifanellaetal.2016)和(Sangwanetal.2020)-提取那些讽刺的文本,Schifanella等人(2016)使用基于标签的方法(#讽刺或#反讽)从推特、 Instagram 和 Tumblr 上收集了 10000 篇讽刺帖子。另一方面,Sangwan等人(2020年)手动注释了1600篇讽刺的帖子。 此外,我们还探索了另一个多模态讽刺检测数据集来收集10560篇讽刺文本。我们总共收集了22160篇讽刺的文本。
接下来,我们采用以下注释指导方针来为每篇文章生成 一个解释。
• 排除范围:
丢弃以下文本
-没有讽刺意味的帖子会被丢弃。
-明确提到讽刺的帖子将被丢弃。
-含有非英语内容的帖子将被丢弃。
-那些需要额外的上下文来解释讽刺或注释者不熟悉这 些主题的帖子将被丢弃。
• 包含:
考虑描述内部不一致(文本内部或图像内部)或内部不一致(图像和文本之间)的文本。
• 注释方案:
使用以下说明来生成解释。
- 所有实体,包括图像、标题、标签、符号等,都要考虑解释讽刺并产生适当的解释。
-如果潜在的讽刺可以用多种方式来解释,则首选更短和更简单的解释。
- 避免在解释中出现任何不相关的主题。
我们获得了两个注释者的服务,他们仔细检查了我们收集的个别文本。根据这些指导方针,注释者对3510篇讽刺的帖子进行了解释。在这些样本中,MORE包含1968个样本的文本实体有图像和标题,而其余1542个样本没有图像和文本重叠。我们称前者为OCR样本,而后者为非OCR样本。
▲ MORE数据集的统计数据
基准模型:
▲ 图2 ExMore的完整架构
结论
总之,印度因陀罗普罗司泰信息技术研究所的学者提出了一种新的多模态讽刺解释(MuSE)的任务,旨在通过标题和图像来展开多媒体帖子中的预期讽刺。 为了解决这项任务,我们开发了一个新的数据集-MORE,其中包含 3510 篇讽刺文章,用自然语言(英语)句子注释了参考解释。此外,他们提出了一个强大的基线 ExMore 来对 MORE 数据集进行基准测试。
评估显示,ExMore 在五 套评估指标上优于各种基线(用于MuSE)。此外,他们还对所生成的解释进行了广泛的分析。POS 标签和基于同义词的语言学分析表明,ExMore 产生的语义准确输出比最佳基线高。此外,25名评估者采用公平弗莱斯 Kappa 协议的人类评估支持了更高的解释的质量(评估分析可参见原文:https://arxiv.org/abs/2112.04873)。他们认为,MuSE在讽刺分析和可解释性领域开辟了一条新的途径。
●参考文献 ●
Poorav Desai, Tanmoy Chakraborty, Md Shad Akhtar.Nice perfume. How long did you marinate in it? Multimodal Sarcasm Explanation 2021. Indraprastha Institute of Information Technology, Delhi (IIIT Delhi), India
原文链接:
https://arxiv.org/abs/2112.048
网友评论