摘要
- 现在虚假新闻检测方法的缺陷是,他们不能学习一个共享的多模态(文本+视觉)信息表示。
引言
- 提出的方法仅仅利用了虚假新闻的文字和图片
-MVAE利用 多模态的变分编码器检测虚假新闻
模型
-
multimodal variational autoencoder (MVAE)
模型架构
- 模型架构包括三部分
- 编码器:编码文字和图片的信息为潜在向量
- 解码器:从潜在向量 重构原始的图片和文字
- 检测器:预测
编码器
- 输入为文字和图像,输出为共享特征表示
- 分为文字编码器和图像编码器
文字编码器
-
将单词的word embedding 过双向LSTM,然后接全连接网络输出。
文字编码
图形编码器
-
使用了VGG的全连接层(FC7)的输出
-
在和文字编码器联合训练使,冻结VGG的参数,不让其参与训练,为了避免参数的爆炸
-
通过多层全连接网络,使其输出的大小和文字编码器大小一致。
图形编码
-
最后将得到的文字编码和图形编码拼接在一起,通过全连接网络,形成了共享的表示
-
然后获得了两个向量μ和σ,它们可以分别视为共享表示分布的均值和方差。(上一步拼接在一起接全连接网络后怎么出现了两个向量?)
-
从以前的分布中随机采样ϵ(这两步都没看懂)
最终的多模态表示
解码器
- 解码器就是将编码器完全反过来
- 文本重建用交叉熵损失函数,图像重建用平方损失函数
检测器
- 将得到的表示通过全连接预测
实验
数据集
- 据作者所知,这是两个仅有的带图像的数据集
- Twitter 数据集
- 微博数据集
我没找到哇
实验设定
- 对文本单词用了 Word2Vec表示,维度为32。对于tweet中的非英文,先进行了翻译;对于中文用了Stanford Word Segmenter
- 对图像,使用了VGG在ImageNet上预训练好的输出,维度为4096
baselines
-
从两个方面进行对比,一方面是单模态(仅仅进行文本检测或者仅仅利用图像检测),一方面是多模态
-
实验结果:反正就是牛。
结果
网友评论