PLAN：关注用户交互的可解释微博谣言检测

作者: 酷酷的群 | 来源:发表于2021-10-24 18:05 被阅读0次

PLAN：关注用户交互的可解释微博谣言检测
日常记录一些自己发现的小交互
Hive处理json数据
HBase之微博项目
尚硅谷大数据技术之HBase
L2_019悄悄关注（set，自定义类型比较运算符的重载）
如何通过用户反馈发现问题（产品二）
春节里的这些“减法和加法”让我来年一身轻
学习笔记 P1-4 用户分析
Redis实现缓存

论文标题：Interpretable Rumor Detection in Microblogs by Attending to User Interactions
论文链接：https://arxiv.org/abs/2001.10667
论文来源：AAAI 2020

一、概述

本文工作的重点是利用社区对帖子响应回复来检测帖子是否是谣言，这方面的研究旨在使用自然语言处理技术来利用社区群体智能。这类工作的关键原则是，社交媒体上的用户会发表对不准确信息的看法、猜测和证据。用户之间的互动以及分享的内容可以被捕捉，用于假新闻检测。下面是一个假新闻及其评论的样本：

example

之前有方法将源推文和响应推文组织成上述树状结构，节点的父亲节点是该推文所回复的推文，然后使用树模型（递归神经网络或者tree LSTMs等）来进行谣言检测，目的是对对话过程中的结构信息进行建模。在树形结构中，信息要么从父亲节点流向子节点，要么反过来，然而使用这样的树形结构来建模对话过程的结构可能是不够的。每个用户通常都能观察到对话中不同分支的所有回复。一个用户揭穿一个假新闻可能不只是针对他要回复的人，他发表的内容可能也针对整个对话过程中的其他推文（这说明树的不同分支的节点之间也可能有交互）。树模型不能建模不同分支的节点之间的交互，这是它的主要限制。我们应该考虑所有推文之间的交互，而不仅仅是父亲节点和子节点之间的交互，以便更好地从回复推文中聚合信息。

本文致力于解决上述限制，我们将树形结构展平，按照推文发表的时间顺序来将所有推文组织成序列结构。本文基于transformer架构提出post-level attention model (PLAN)，能够允许所有推文之间的两两交互，进一步通过引入结构信息（structure aware）来改进模型（StA-PLAN），再进一步设计一种 structure aware hierarchical token post-level attention network (StA-HiTPLAN)来学习每篇推文的更复杂的表示。

二、方法

问题定义

定义一个对话过程为 $X=\left \{x_{1},x_{2},\cdots ,x_{n}\right \}$ ，这里 $x_{1}$ 是源推文， $x_{i}$ 是按照时间顺序排列的第 $i$ 个回复， $n$ 是推文的数量。在树结构中，一个推文对 $x_i$ 和 $x_j$ 仅在 $x_i$ 回复 $x_j$ 或者反过来的情况下才是相关的。在本文提出的模型中允许任何推文关注到任何其他推文。本文使用关系标签 $R(i,j)\in \left \{parent,child,before,after,self\right \}$ 标注了任意推文对 $x_i$ 和 $x_j$ 之间的关系，这五种关系的定义如下：
① $parent$ ： $x_i$ 直接回复 $x_j$ ；
② $child$ ： $x_j$ 直接回复 $x_i$ ；
③ $before$ ： $x_i$ 发布比 $x_j$ 早；
④ $after$ ： $x_i$ 发布比 $x_j$ 晚；
⑤ $self$ ： $i=j$ 。

谣言检测任务的目标是预测每个 $(X,R)$ 到对应的类别 $y$ 。本文的实验在Twitter15和Twitter16以及PHEME数据集上进行，其中Twitter15和Twitter16数据集的 $y\in \left \{non\; rumor,false\; rumor,true\; rumor,unverified\right \}$ ，PHEME数据集的 $y\in \left \{false\; rumor,true\; rumor,unverified\right \}$ 。

Transformer架构

Transformer模型用来学习输入序列的长程依赖关系，应用这一特性，我们就可以利用transformer来学习展平的推文序列任意推文之间的两两交互关系。本小节简要介绍一下transformer的multi-head attention (MHA)层，构成transformer的每一层都包含一个self-attention子层和一个前馈子层，其中self-attention层是multi-head的，简要介绍self-attention层架构如下：

$\alpha _{ij}=Compatibility(q_{i},k_{j})=softmax(\frac{q_{i}k_{j}^{T}}{\sqrt{d_{k}}})$

序列中 $i$ 和 $j$ 元素的兼容性（Compatibility）也就是注意力权重通过 $i$ 的query与 $j$ 的key来计算得到，接着我们利用这些注意力权重来将每个位置的value聚合起来得到位置 $i$ 的输出：

$z_{i}=\sum_{j=1}^{n}\alpha _{ij}v_{j}$

对transformer不熟悉的同学可以参考：
①Transformer：Attention Is All You Need
②Transformer|深度学习（李宏毅）（八）

Post-Level Attention Network (PLAN)

下图(a)展示了PLAN的架构：

架构

PLAN的输入为展平的按时间顺序的推文序列 $X=\left \{x_{1},x_{2},\cdots ,x_{n}\right \}$ ，每个推文使用该推文文本的word embedding向量（GLOVE 300d）表示，首先对每篇推文 $x_i$ 进行max-pooling来获得其句子表示 $x_{i}^{'}$ 。接着我们将推文句子表示序列 $X^{'}=\left (x_{1}^{'},x_{2}^{'},\cdots ,x_{n}^{'}\right )$ 通过 $s$ 个MHA层来建模推文之间的交互，这些MHA层称为post-level attention layers，通过这些MHA层以后得到输出 $U=\left (u_{1},u_{2},\cdots ,u_{n}\right )$ ，最后我们通过attention机制聚合这些输出并使用全连接层进行预测：

$\alpha _{k}=sotmax(\gamma ^{T}u_{k})\\ v=\sum_{k=1}^{n}\alpha _{k}u_{k}\\ p=softmax(W_{p}^{T}v+b_{p})$

这里 $\gamma \in \mathbb{R}^{d_{model}},\alpha _{k}\in \mathbb{R},W_{p}\in \mathbb{R}^{d_{model}\times K},b_{p}\in \mathbb{R}^{d_{model}}$ ， $K$ 是类的个数， $v$ 和 $p$ 分别是 $X$ 的表示向量和预测向量。

Structure Aware Post-Level Attention Network (StA-PLAN)

PLAN因为展平树形结构使用序列作为输入而丢失了结构信息，StA-PLAN使用以下方式来引入结构信息：

$\alpha _{ij}=softmax(\frac{q_{i}k_{j}^{T}+a_{ij}^{K}}{\sqrt{d_{k}}})\\ z_{i}=\sum_{j=1}^{n}\alpha _{ij}(v_{j}+a_{ij}^{V})$

从上式可以看出，相比之前的自注意力计算过程，添加了 $a_{ij}^{K}$ 和 $a_{ij}^{V}$ ， $a_{ij}^{K}$ 和 $a_{ij}^{V}$ 都是向量，代表5种推文之间的关系之一（也就是 $parent,child,before,after,self$ ）。也就是说每种关系都对应两个向量分别用于充当 $a_{ij}^{K}$ 和 $a_{ij}^{V}$ ，并且这些向量是可学习的。 $a_{ij}^{K}$ 给兼容性计算函数提供了更多信息以更好地决定兼容性，兼容性现在由文本内容和结构信息同时决定。 $a_{ij}^{K}$ 允许文本内容和结构信息都能传播到其他推文。

Structure Aware Hierarchical Token and Post-Level Attention Network (StA-HiTPLAN)

在获得推文的句子表示时采用的是max-pooling的方法，可以考虑采用更理想的方式来学习推文内token的重要性，于是我们提出了一个hierarchical attention model，也就是现在token-level进行attention来学习句子表示，然后再进行post-level attenion。StA-HiTPLAN的架构如上图(b)所示（上图中Tweet Level Self-Attention下面的两个方框画反了）。

具体来说，每篇推文 $x_{i}=(x_{i,1},x_{i,2},\cdots ,x_{i,|x_{i}|})$ 将通过 $s_{word}$ 个MHA层，这些层允许推文中任意两个token的交互，称为token-level attention layers，然后进行前述类似的attention过程将这些MHA层的输出聚合起来得到该推文的句子表示。然后再执行前述相同的称为post-level self-attention。

Time Delay Embedding

不同时间间隔创建的推文可能会有不同的作用。在源推文刚刚创建时，由于其是未经验证的，因此会有一些推文表达不信任，而在传播过程的后期，表达质疑的推文很可能表明源推文是假的。因此本文提出一种方法来编码时间延迟信息。

为了包含每条推文的时间延迟信息，我们根据创建源推文时的延迟对推文进行划分。总计bin数量为100，每个时间bin为10分钟间隔，推文延迟超过1000分钟的归入最后一个bin。利用transfomer原论文中类似的positional encoding来编码每个时间bin，得到的time delay embedding将与推文的句子embedding相加。每个推文的time delay embedding（TDE）为：

$TDE_{pos,2i}=sin\frac{pos}{10000^{2i/d_{model}}}\\ TDE_{pos,2i+1}=cos\frac{pos}{10000^{2i/d_{model}}}$

$pos\in [0,100)$ 代表推文落入的时间间隔bin， $i$ 代表维度， $d_{model}$ 代表整个模型的维度。

三、实验

数据集

本文实验在Twitter15和Twitter16以及PHEME数据集上进行，以下是两个数据集的统计情况：

数据集统计

实验

下面是在所有数据集上的实验效果：

Twitter15和Twitter16

PHEME

可解释性

Post-Level Explanations

首先通过最后的attention层获得最重要的推文 $tweet_{impt}$ ，然后从第 $i$ 个MHA层获得该层的与 $tweet_{impt}$ 最相关的推文 $tweet_{rel,i}$ ，每篇推文可能被识别成最相关的推文多次，最后按照被识别的次数排序，取前三名作为源推文的解释。举例如下：

example

Token-Level Explanation

可以使用token-level self-attention的自注意力权重来进行token-level的解释。比如评论“@inky mark @CP24 as part of a co-op criminal investigation one would URL doesn’t need facts to write stories it appears.”中短语“facts to write stories it appears”表达了对源推文的质疑，下图的自注意力权重图可以看出大量权重集中在这一部分，这说明这个短语就可以作为一个解释：

自注意力权重

PLAN：关注用户交互的可解释微博谣言检测
论文标题：Interpretable Rumor Detection in Microblogs by Atten...
日常记录一些自己发现的小交互
最近总是在朋友圈装死，微博上蹦迪。然后刷微博刷着刷着就发现一个好玩的小交互功能。就是在刷自己关注的用户的时候，当你...
Hive处理json数据
一、测试数据该数据采用json格式存储：id：代表当前用户微博的id；ids：代表当前微博用户关注其他微博用户的...
HBase之微博项目
Hbase之微博项目一、微博系统介绍 1. 需求分析微博内容的浏览，数据库表设计用户社交体现：关注用户，取关...
尚硅谷大数据技术之HBase
第8章 Hbase实战之谷粒微博8.1 需求分析微博内容的浏览，数据库表设计用户社交体现：关注用户，取关用户 ...
L2_019悄悄关注（set，自定义类型比较运算符的重载）
新浪微博上有个“悄悄关注”，一个用户悄悄关注的人，不出现在这个用户的关注列表上，但系统会推送其悄悄关注的人发表的微...
如何通过用户反馈发现问题（产品二）
用户反馈关注？竞品的问题可能的机会点搜救用户反馈的渠道 app store 用户投诉微博微信群贴吧客...
春节里的这些“减法和加法”让我来年一身轻
做减法：取消微博的关注，减少1000左右个不小心关注的广告号。屏蔽朋友圈，至少减少100左右个习惯性转发谣言的...
学习笔记 P1-4 用户分析
用户分析目的关注用户，通过用户反馈发现可能的机会点。获取用户反馈渠道公开渠道微博、APPstore、应用商...
Redis实现缓存
场景一：类似于微博，实现关注和被关注功能。思路：对每个用户使用两个集合类型键，用来存储关注别人的用户和被该用户...