美文网首页
论文 笔记:《MVAE: Multimodal Variatio

论文 笔记:《MVAE: Multimodal Variatio

作者: IT_小马哥 | 来源:发表于2020-09-27 16:02 被阅读0次

代码地址:https://github.com/dhruvkhattar/MVAE

摘要

  • 现在虚假新闻检测方法的缺陷是,他们不能学习一个共享的多模态(文本+视觉)信息表示。

引言

  • 提出的方法仅仅利用了虚假新闻的文字和图片
    -MVAE利用 多模态的变分编码器检测虚假新闻

模型

  • multimodal variational autoencoder (MVAE)


    模型架构
  • 模型架构包括三部分
    • 编码器:编码文字和图片的信息为潜在向量
    • 解码器:从潜在向量 重构原始的图片和文字
    • 检测器:预测

编码器

  • 输入为文字和图像,输出为共享特征表示
  • 分为文字编码器和图像编码器

文字编码器

  • 将单词的word embedding 过双向LSTM,然后接全连接网络输出。


    文字编码

图形编码器

  • 使用了VGG的全连接层(FC7)的输出

  • 在和文字编码器联合训练使,冻结VGG的参数,不让其参与训练,为了避免参数的爆炸

  • 通过多层全连接网络,使其输出的大小和文字编码器大小一致。


    图形编码
  • 最后将得到的文字编码和图形编码拼接在一起,通过全连接网络,形成了共享的表示

  • 然后获得了两个向量μ和σ,它们可以分别视为共享表示分布的均值和方差。(上一步拼接在一起接全连接网络后怎么出现了两个向量?)

  • 从以前的分布中随机采样ϵ(这两步都没看懂)


    最终的多模态表示

解码器

  • 解码器就是将编码器完全反过来
  • 文本重建用交叉熵损失函数,图像重建用平方损失函数

检测器

  • 将得到的表示通过全连接预测

实验

数据集

我没找到哇

实验设定

  • 对文本单词用了 Word2Vec表示,维度为32。对于tweet中的非英文,先进行了翻译;对于中文用了Stanford Word Segmenter
  • 对图像,使用了VGG在ImageNet上预训练好的输出,维度为4096

baselines

  • 从两个方面进行对比,一方面是单模态(仅仅进行文本检测或者仅仅利用图像检测),一方面是多模态

  • 实验结果:反正就是牛。


    结果

相关文章

网友评论

      本文标题:论文 笔记:《MVAE: Multimodal Variatio

      本文链接:https://www.haomeiwen.com/subject/bvekuktx.html