作者丨周鹏
学校丨中山大学硕士
研究方向丨计算语言学、语言加工、认知与教学
多模态假新闻细粒度检测基准数据集Fakeddit:
https//aclanthologorg/2020.lrec-1.755.
研究背景简述
数字媒体的使用和高效传播,为人类社会带来了诸如促进社会互动,改善信息共享等好处,但假新闻、假消息也出现了前所未有的激增。
尤其近两年由于新冠疫情的影响,社交媒体上关于疫苗、病毒等的虚假信息泛滥,甚至导致疫苗接种犹豫的增加(Islam等, 2021)和重大的经济损失 (Brown, 2019)。
因此,假新闻自动检测工具的开发对预防假新闻的负面影响具有重要作用。但目前大多数检测和分类错误内容的尝试都只集中在使用单一语言文本信息上,多模态方法较少见,它们通常将新闻分为真或假,缺乏更细粒度的分类。
在这项工作中,来自西班牙马德里著名高校卡洛斯三世大学的学者(Santiago Alonso-Bartolome, Isabel Segura-Bedmar. Multimodal Fake News Detection.2021)使用单模态和多模态的方法,在 Fakeddit 数据集(Nakamura, K., Levy, S., & Wang, W. Y. 2020)上对假新闻进行了细粒度的分类。
实验结果表明,基于结合语言文本和图像数据的卷积神经网络(CNN)架构的多模态方法效果最好,准确率为87%。一些假新闻类别,如操纵内容、讽刺或虚假连接这些分类都强烈受益于图像的使用。使用图像也可以改善其他类别的结果,但影响较小。
对于仅使用语言文本的单模态方法,来自变压器的双向编码器表示(BERT)是最佳模型,准确率达78%。因此,同时利用语言文本数据和图像数据可以显著提高假新闻检测的性能
方法
该论文的主要目的是研究单模态和多模态方法在更细粒度的假新闻上的分类检测。
为了做到这一点,他们使用了Fakeddit数据集,并将其分为以下六类不同的类别:
真实内容(true)、误导性内容(misleading content)、被操纵内容(manipulated content)、虚假联系内容(false connection)、冒名顶替者内容( imposter content)和讽刺内容(satire)。
他们探索了几种用于文本分类的深度学习架构,单模态方法如卷积神经网络(CNN)(Goodfell 等人,2016)、双向长短期记忆(BiLSTM)(Hochreiter&Schmidhuber,1997)和来自变压器的双向编码器表示(BERT)(Devlin等人,2018)。
而多模态方法,他们提出了一种结合文本和图像的CNN架构来对假新闻进行分类。
使用语言文本的单模态方法:
首先,要进行深度学习模型的预处理,通过删除停止语、标点符号、数字和多个空格来开始预处理语料库中的文本。然后,将每个文本分割进行标记,并进行词形还原(lemmatization),接着将词形还原后的文本转换为整数(Integers)序列。
通过学习语料库的词汇,并构建一个字典,其中每个单词映射到不同的整数,然后使用这个字典将每个文本转换为一个整数序列。这样的序列中的每一个非零条目都对应于原始文本中的一个单词,文本中文字的原始顺序得到了还原(respected)。
由于我们需要向深度学习模型提供相同长度的向量,因此我们填充和截断整数序列,使它们有相同数量的条目。这样做的缺点是,那些太长的向量将被截断, 并丢失一些信息。
为了选择被填充的截断的向量的长度,我们计算了小于10、15、20和25标记的文本的百分比。
图1显示了每种情况下的训练、验证和测试分区的结果。我们可以看到,98%的文本的长度小于15篇。
由于必须被截断的文本数量非常少(不到 2%),因此丢失的信息就很少了。所以,我们选择15作为填充和截断后的向量长度。
图 1:小于给定长度的文本所占百分比
深度学习架构使用与给定文本对应的单词嵌入序列作为输入。因此,嵌入层将输入序列的每个整数值转换为一个单词嵌入向量。
通过这种方式,每个向量化的文本被转换为15行和300列的矩阵(300列是单词嵌入的维数)。我们同时使用随机初始化和预先训练的手套单词嵌入(Pennintonetal.,2014)。
我们还比较了一种动态方法(让模型进一步训练单词嵌入)和一种静态方法(不让模型训练单词嵌入)。
CNN方法:
具体方法可参见原文(点击“阅读原文”),进行假新闻文本分类架构的主要路径如图2所示:
图2 CNN用于文本分类
(嵌入层-卷积层-最大池化层-致密层+ReLU激活+
过 logsoftmax 函数-获得相应输入文本的预测类)
该方法的结果如下表1
表1
该模型的准确率为72%,微观平均水平为57%,宏观平均水平为49%,其中在识别真实内容(true)、被操纵内容(manipulated content)上的平均准确率最高(都为79%),而在识别冒名顶替者内容( imposter content)上平均准确率最低(13%),此外,该论文还比较了CNN使用动态和静态Glove向量的结果,感兴趣的可参见原文。
BiLSTM方法:
具体方法可参见原文(点击“阅读原文”),进行假新闻文本分类架构的主要路径如图3所示:
图 3:用于文本分类的BiLSTM
该方法的结果如下表2:
表2
该模型的准确率为72%,微观平均水平为57%用随机向量初始化的 BiLSTM 得到的结果与用随机初始化的 CNN 得到的结果非常相似(见表1)。
事实上,这两种模型的精度相同,为 0.72。然而,在微观平均水平方面,BiLSM 模型比随机初始化的 CNN 模型多得到9分。
这种改进可能是因为BiLSTM 提高了其冒名顶替者内容的分数。(其他使用动态和静态Glove向量的结果可参见原文)
BERT方法:
在这种方法下,他们使用BERT提供的向量来表示输入标记,而不是使用 前趋势手套嵌入的随机初始化。与GloVe模型相反(Pennintonetal.,2014),BERT考虑了每个单词的上下文(即它周围的单词)。
该方法的结果如下表3:
表3
BERT的准确率为78%,微观平均水平的准确率为74%。因此,它优于之前所有的单峰深度学习方法。
这证明了由BERT提供的预先训练的上下文文本表示的优势,而不是与上下文无关的Glove向量或神经网络的随机初始化。
语言和图像数据结合的多模态方法:
多模态方法使用一个CNN,它将同一新闻对应的文本和图像作为输入。 该模型输出一个包含6个数字的向量,从中得到了预测的类。其具体方法可参见论文原文。
该方法的结果如下表4:
表4
从中可以看出,多模态方法的准确率为87%,微观平均水平为72%,是所有单模态模型中得分最高的。
最佳模型的比较:
除了深度学习算法外,他们还提出了最成功的文本分类算法之一——支持向量机 (SVM)作为基线。表4显示了最佳模型(SVM、CNN、BiLSTM、BERT 和多模态CNN)的准确性和微观平均分的比较。
总之,我们可以看到多模态CNN的性能优于所有的单模态方法。这证明了将文本和图像组合于细粒度的假新闻分类的有效性。
针对单模态方法,BERT模型在准确性和微观平均水平分数方面都是最好的,这显示了使用上下文词嵌入的优势。
第三个最好的方法是使用动态Glove向量的BiLSTM。最后,所有的深度学习方法都优于基线SVM。
结论
总之,假新闻可能会对政治、健康和经济产生重大的负面影响。因此,有必要开发能够快速和可靠地检测错误信息的工具。
在马德里卡洛斯三世大学学者的这篇论文贡献中,我们能看到多模态方法克服了只利用语言文本的方法,BERT 是进行语言文本分类的最佳模型。
此外,使用动态GloVe词嵌入的性能优于 CNN和 BiLSTM架构的随机初始化。作为未来的工作,他们还计划使用预先训练好的网络来生成视觉表示。特别是他们将使用VGG网络,它是在 ImageNet 等大型图像数据集上进行预训练的。
他们还计划探索不同的深度学习技术,如LSTM、BiLSTM、GRU 或 BERT,以及不同的方法来结合视觉和文本表示。在他们目前的研究中,他们使用早期融合方法(early fusion approach)构建了他们的多模态CNN,该方法包括创建文本和视觉表示,然后组合,然后在得到的组合表示上应用一个分类器,以得到每个类的概率。
相反,他们计划研究一种晚期融合方法( late fusion approach),这将需要两个独立的分类器(一个用于语言文本输入,另一个用于图像输入)。然后将来自两个分类器的预测结合起来,得到最终的预测。
Santiago Alonso-Bartolome, Isabel Segura-Bedmar. Multimodal Fake News Detection.2021.Computer Science Department, Universidad Carlos III de Madrid, Avenida de la Universidad, 30, Leganés, 28911, Madrid, Spain
网友评论