GCAN：可解释的社交媒体假新闻检测方法

作者: 酷酷的群 | 来源:发表于2021-09-23 19:33 被阅读0次

GCAN：可解释的社交媒体假新闻检测方法
论文笔记：《dEFEND: Explainable Fake N
Arxiv网络科学论文摘要7篇(2021-01-18)
研究：为什么老年人容易分享假新闻~圣蜜滚滚舒转
Arxiv网络科学论文摘要9篇(2020-03-12)
Arxiv网络科学论文摘要11篇(2019-04-09)
Arxiv网络科学论文摘要6篇(2021-02-10)
Arxiv网络科学论文摘要12篇(2020-11-26)
Facebook唤起我国消费者对隐私的保护意识
消费者研究：美国成年人认为纸媒报道假新闻占39%

论文标题：GCAN: Graph-aware Co-Attention Networks for Explainable Fake News Detection on Social Media
论文链接：https://arxiv.org/abs/2004.11648
论文来源：ACL 2020

一、概述

目前假新闻检测问题仍然存在一些重要的挑战。比如：
①目前的一些方法要求文档为长文本，以便于能够更好地学习词和句子的表示。然而社交媒体上的一些推文大多是短文本，这就导致了一些数据稀疏性问题。
②一些SOTA的方法要求收集大量的用户评论，然而大多数用户仅仅是简单地转发推文而并不留下任何评论。
③一些研究认为社交网络中的信息扩散（即retweet）路径有助于错误信息的分类，从而学习基于树的传播结构的表示。然而，由于隐私问题，获取转发的扩散结构往往代价高昂，许多用户选择隐藏或删除社交记录。
④目前的一些方法缺乏可解释性，不能为支持谣言的可疑用户以及他们在制造谣言时关心的话题提供证据。

本文提出的方法利用源推文的短文本内容、转发用户序列以及用户资料来进行假新闻检测。也就是说本文的方法满足以下设置：
①短文本源推文；
②没有使用用户评论文本；
③没有使用社交网络和扩散网络的网络结构。

此外，我们要求假新闻检测模型具有可解释性，即在判断新闻是否虚假时突出证据。该模型将指出支持传播假新闻的可疑转发者，并突出他们特别关注的源推文中的词。

本文提出一个新的模型，即Graph-aware Co-Attention Network(GCAN)。首先从用户资料和社交互动中提取用户特征，然后使用CNN和RNN来学习基于用户特征的转发传播表示。另外使用图来建模用户之间的潜在交互，并且采用GCN来学习graph-aware的用户交互的表示。同时提出了dual co-attention机制来学习源推文和转发传播之间的相关性，以及源推文和用户交互之间的相互影响。最终利用学习到的embedding来进行假新闻的二分类预测。

二、方法

1. 问题陈述

$\Psi =\left \{s_{1},s_{2},\cdots ,s_{|\Psi |}\right \}$ 是推文的集合， $U=\left \{u_{1},u_{2},\cdots ,u_{|U|}\right \}$ 是用户的集合。每个 $s_{i}\in \Psi$ 都是短文本文档（也叫做源推文）。 $s_{i}=\left \{q_{1}^{i},q_{2}^{i},\cdots ,q_{l_{i}}^{i}\right \}$ 表明 $s_i$ 由 $l_i$ 个单词组成。 $U$ 中的每个用户 $u_j$ 都对应一个用户特征向量 $x_{j}\in \mathbb{R}^{d}$ 。当一个推文 $s_{i}$ 发布以后，一些用户将会转发 $s_i$ 从而形成一个转发记录的序列，这被称为传播路径。给定一个推文 $s_i$ ，它的传播路径表示为 $R_{i}=\left \{\cdots ,(u_{j},x_{j},t_{j}),\cdots \right \}$ ， $(u_{j},x_{j},t_{j})$ 表明第 $j$ 个用户（其用户特征向量为 $x_j$ ）转发了 $s_i$ ，这里 $j=1,2,\cdots ,K$ 。转发了 $s_i$ 的用户集合记作 $U_i$ ，最先转发 $s_i$ 的用户记作 $u_1$ ，转发时间记作 $t_1$ ，其余用户 $u_j$ 在时间 $t_j$ 转发了 $s_i$ （ $t_{j}>t_{1}$ ）。每个 $s_i$ 有一个binary的标签 $y_{i}\in \left \{0,1\right \}$ 表明是否是假新闻（ $y_i=1$ 代表 $s_i$ 是假新闻）。我们希望能够利用上述数据来利用神经网络模型识别 $s_i$ 是否是假新闻，另外，希望模型能够突出能够表明 $s_i$ 真实性的一部分用户 $u_j$ 和一些推文中的词 $q_k^i$ 。

2. GCAN框架

GCAN主要包括5个部分：
①user characteristics extraction，创建特征来量化用户如何参与在线社交网络；
②new story encoding，生成源推文中单词的表示；
③user propagation representation，使用提取的用户特征建模和表示源推文如何由用户传播；
④dual co-attention mechanisms，捕获源推文和用户交互/传播之间的相关性；
⑤making prediction，通过连接所有学习的表示生成检测结果。

GCAN的架构图如下：

GCAN

3. 模型

User Characteristics Extraction

用户 $u_j$ 的特征向量 $x_j$ 是定义得到的，具体的，包含以下特征：
①用户自我描述的字数；
②用户账户名的字数；
③关注用户 $u_j$ 的数量；
④用户关注的人的数量；
⑤用户创建的story数量；
⑥举例用户第一个story经过的时间；
⑦用户的账户是否被验证过；
⑧用户是否允许地理空间定位；
⑨源推文发布时间和用户转发时间的时差；
⑩用户和源推文之间转发路径的长度（如果用户转发源推文则为1）。

最终得到 $x_{j}\in \mathbb{R}^{v}$ ， $v$ 是特征的数量。

Source Tweet Encoding

给定的源推文将使用一个word-level的encoder进行编码，输入是 $s_i$ 中的每一个单词的独热向量。由于每个推文长度都不一样，这里设置 $m$ 为最大长度，不足 $m$ 的推文进行zero padding。使用 $E=[e_{1},e_{2},\cdots ,e_{m}]\in \mathbb{R}^{m}$ 来表示源推文的独热编码表示， $e_i$ 是词的独热向量，使用一个全连接网络来获得word embedding $V=[v_{1},v_{2},\cdots ,v_{m}]\in \mathbb{R}^{d\times m}$ ， $d$ 是word embedding的维度，过程是：

$V=tanh(W_{w}E+b_{w})$

然后使用GRU来学习词序列表示，也就是 $s_t=GRU(v_t),t\in \left \{1,2,\cdots ,m\right \}$ ，最终得到 $S=[s^{1},s^{2},\cdots ,s^{m}]\in \mathbb{R}^{d\times m}$ 。

User Propagation Representation

我们的目的是利用提取的用户特征 $x_j$ 以及推文的传播序列来学习用户传播表示。其根本观点是，真实新闻传播中的用户特征与虚假新闻传播中的用户特征是不同的。这里的输入是推文 $s_i$ 的转发用户特征向量序列，用 $PF(s_{i})=\left \langle x_{1},x_{2},\cdots ,x_{t},\cdots ,x_{n}\right \rangle$ 表示， $n$ 是选定的固定长度的转发用户数量。如果转发用户数量超过 $n$ 则截取前 $n$ 个，如果少于 $n$ 则从 $PF(s_{i})$ 中重采样直至长度为 $n$ 。

- GRU-based Representation

给定传播序列 $PF(s_{i})=\left \langle\cdots ,x_{t},\cdots \right \rangle$ ，使用GRU来学习传播表示， $h_{t}=GRU(x_{t}),t\in \left \{1,\cdots ,n\right \}$ ，最终通过平均池化获得传播表示 $h=\frac{1}{n}\sum_{t=1}^{n}h_{t}$ ， $h\in \mathbb{R}^{d}$ 。

- CNN-based Representation

采用2D卷积来学习 $PF(s_{i})$ 内特征的相关性，考虑 $\lambda$ 个连续用户来建模其序列相关性，比如 $\left \langle x_{t},\cdots ,x_{t+\lambda -1}\right \rangle$ ，卷积核 $W_f$ 的大小就是 $\lambda \times v$ ，总共使用 $d$ 个卷积核，因此最终学习到的表示序列 $C\in \mathbb{R}^{d\times (n-\lambda +1)}$ 。

Graph-aware Interaction Representation

我们的目的是创建一个图来建模转发用户之间潜在的交互，想法是拥有特殊特征的用户之间的相关性对揭示源推文是否是假新闻能够起到作用。每个源推文 $s_i$ 的转发用户集合 $U_i$ 都被用来构建一个图 $\mathcal{G}^{i}=(U_{i}, \mathcal{E}_{i})$ 。由于用户间的真实交互是不清楚的，因而这个图是全连接的，也就是任意节点相连， $|\mathcal{E}_{i}| = \frac {n\times (n-1)}{2}$ 。结合用户特征，每条边 $e_{\alpha \beta }\in \mathcal{E}_{i}$ 都被关联到一个权重 $w_{\alpha \beta }$ ，这个权重也就是节点用户特征向量 $x_{\alpha }$ 和 $x_{\beta }$ 的余弦相似度，即 $w_{\alpha \beta }=\frac{x_{\alpha }\cdot x_{\beta }}{\left \|x_{\alpha }\right \|\left \|x_{\beta }\right \|}$ ，图的邻接矩阵 $A=[w_{\alpha \beta }]\in \mathbb{R}^{n\times n}$ 。

然后使用第三代GCN来学习用户交互表示。给定邻接矩阵 $A$ 和用户特征矩阵 $X$ ，新的 $g$ 维节点特征矩阵 $H^{(l+1)}\in \mathbb{R}^{n\times g}$ 计算过程为：

$H^{(l+1)}=\rho (\tilde{A}H^{(l)}W_{l})$

$l$ 是层数， $\tilde{A}=D^{-\frac {1}{2}}AD^{-\frac{1}{2}}$ ， $D_{ii}=\sum_{j}A_{ij}$ 是度矩阵， $W_l\in \mathbb{R}^{d\times g}$ 是第 $l$ 层的学习参数， $\rho$ 是激活函数。这里 $H^{0}=X$ ，实验时选择堆叠两层GCN层，最终学习到的表示为 $G\in \mathbb{R}^{g\times n}$ 。

Dual Co-attention Mechanism

我们认为假新闻的证据可以通过调查源推文的哪些部分是由哪些类型的转发用户关注的来揭开，并且线索可以由转发用户之间如何互动来反映。因此，本文提出了dual co-attention机制，来建模：
①源推文（ $S=[s^{1},s^{2},\cdots ,s^{m}]$ ）与用户传播embedding（ $C=[c^{1},c^{2},\cdots ,c^{n-\lambda +1}]$ ）之间以及
②源推文（ $S=[s^{1},s^{2},\cdots ,s^{m}]$ ）与graph-aware的交互embedding（ $G=[g^{1},g^{2},\cdots ,g^{n}]$ ）之间
的相互作用。通过dual co-attention的注意力权重，模型可以具有可解释性。

- Source-Interaction Co-attention

首先计算一个相似性矩阵 $F\in \mathbb{R}^{m\times n}$ ：

$F=tanh(S^{T}W_{sg}G)$

这里 $W_{sg}$ 是一个 $d\times g$ 的参数矩阵。接着按照以下方式得到 $H^s$ 和 $H^g$ ：

$H^{s}=tanh(W_{s}S+(W_{g}G)F^{T})\\ H^{g}=tanh(W_{g}G+(W_{s}S)F)$

这里 $W_{s}\in \mathbb{R}^{k\times d},W_{g}\in \mathbb{R}^{k\times g}$ ，这里的 $F$ 和 $F^T$ 可以看做在做user-interaction attention空间和source story word attention空间的转换。接下来得到attention的权重：

$a^{s}=softmax(w_{hs}H^{s})\\ a^{g}=softmax(w_{hg}H^{g})$

这里 $a^{s}\in \mathbb{R}^{1\times m},a^{g}\in \mathbb{R}^{1\times n}$ ， $w_{hs},w_{hg}\in \mathbb{R}^{1\times k}$ 是学习的参数。最后可以得到源推文和用户交互的attention向量：

$\hat{s}_{1}=\sum_{i=1}^{m}a_{i}^{s}s^{i}\\ \hat{g}=\sum_{j=1}^{n}a_{j}^{g}g^{j}$

$\hat{s}_{1}$ 和 $\hat{g}$ 描述源推文中的单词是如何被用户参与互动的。

- Source-Propagation Co-attention

按照上述类似过程生成 $S$ 和 $C$ 的attention向量 $\hat{s}_{2}$ 和 $\hat{c}$ 。

注意基于GRU的传播表示没有用来学习与 $S$ 的交互。这是因为对于假新闻的预测来说，转发序列的用户特征能够起到重要的作用。因此本文采用基于GRU和CNN的两种方式来学习传播表示，其中基于CNN的传播表示被用来学习与 $S$ 的交互，基于GRU的传播表示在进行最终预测时用作最终分类器的直接输入。

Make Prediction

最终使用 $f=[\hat{s}_{1},\hat{g},\hat{s}_{2},\hat{c},h]$ 来进行假新闻检测：

$\hat{y}=softmax(ReLU(fW_{f}+b_{f}))$

损失函数采用交叉熵损失。

三、实验

对比baseline

对比了多项baseline的结果，效果有明显的提升：

实验

假新闻早期检测

GCAN也可以用于假新闻早期的检测，也就是在转发用户不多的时候进行检测，实验改动了使用的转发用户数量来进行验证：

早期检测g

消融实验

另外移除了一部分组件进行了消融实验，图中-A,-R,-G,-C分别代表移除dual co-attention，基于GRU的表示，graph-aware的表示和基于CNN的表示：

消融实验

-S-A代表既没有源推文embedding也没有dual co-attention，由于源推文提供了基本线索，因此-S-A有一个明显的性能下降。

可解释性

source-propagation co-attention学习到的attention权重可以用来为预测假新闻提供证据，采用的方式就是标识出源推文中的重要的词和可疑的用户。注意，我们不考虑source-interaction Co-attention的可解释性，因为从构造的图中学到的用户交互特征不能直观地解释。

下图是根据对源推文中的attention权重绘制的两个例子的词云（权重越大，词云中的词就越大）：

例子

图中结果满足常识，也就是假新闻倾向于使用戏剧性和模糊的词汇，而真实新闻则是被证实和核实事实的相关词汇。

另外我们希望利用传播中的转发顺序来揭示假新闻与真新闻的行为差异。下图采集并展示了三个假新闻和三个真新闻的传播序列attention的权重：

例子

结果表明，要确定一个新闻是否虚假，首先应该检查早期转发源推文的用户的特征。假新闻的用户attention权重可能在传播过程中均匀分布。

source-propagation co-attention可以进一步解释可疑用户的特征及其关注的词语，举例如下图：

例子

可以发现，可疑用户在转发传播中的特征有：
①账号未被验证；
②账号创建时间较短；
③用户描述长度较短；
④距发布源推文用户的图路径长度较短。

他们高度关注的词是“breaking”和“pipeline”这样的词。我们认为这样的解释有助于解读假新闻的检测，从而了解他们潜在的立场。

GCAN：可解释的社交媒体假新闻检测方法
论文标题：GCAN: Graph-aware Co-Attention Networks for Explaina...
论文笔记：《dEFEND: Explainable Fake N
摘要作者认为目前的虚假新闻的检测研究缺少了可解释性，为什么一个新闻的片段被检测为虚假的？作者提出了一个新闻句子...
Arxiv网络科学论文摘要7篇(2021-01-18)
网络效应下的加密资产竞争与市场集中度; 通过因果匿名游走进行含时网络的归纳表示学习; 社交媒体中讽刺检测的可解释多...
研究：为什么老年人容易分享假新闻~圣蜜滚滚舒转
有了社交媒体之后，假新闻的传播速度越来越快。那究竟是哪些人在转发假新闻，以及这些人有什么共同点？一项发表在2019...
Arxiv网络科学论文摘要9篇(2020-03-12)
COVID-19社交媒体信息大传播; 人类的愚蠢的破坏作用：奇波拉基本律的修订; 无监督可解释域适应快速过滤社会网...
Arxiv网络科学论文摘要11篇(2019-04-09)
社交媒体上的热点; 动态网络的拟合优度检验; 含时网络的增量嵌入; 检测Reddit上违反宏规范的注释的混合方法;...
Arxiv网络科学论文摘要6篇(2021-02-10)
SCARLET：基于可解释注意的图神经网络，用于虚假新闻传播者预测; 对称和耗散作为社会流动的基本机制，解释了移民...
Arxiv网络科学论文摘要12篇(2020-11-26)
符号Infomax双曲图的可解释的符号链路预测; 基于消息分发的社会网络社区检测新方法; 拼车网络中的病毒传播。拼...
Facebook唤起我国消费者对隐私的保护意识
本周 Facebook召开了F8大会，一届笼罩在数据泄露、假新闻、涉嫌干预大选、传播仇恨言论等社交媒体等朵朵乌云下...
消费者研究：美国成年人认为纸媒报道假新闻占39%
根据美国一项调查，现在美国成年人认为纸媒的报道有39%是假新闻，在社交媒体领域更是高达65%。很显然，人们已经不像...

GCAN：可解释的社交媒体假新闻检测方法

一、概述

二、方法

三、实验

相关文章

GCAN：可解释的社交媒体假新闻检测方法

论文笔记：《dEFEND: Explainable Fake N

Arxiv网络科学论文摘要7篇(2021-01-18)

研究：为什么老年人容易分享假新闻~圣蜜滚滚舒转

Arxiv网络科学论文摘要9篇(2020-03-12)

Arxiv网络科学论文摘要11篇(2019-04-09)

Arxiv网络科学论文摘要6篇(2021-02-10)

Arxiv网络科学论文摘要12篇(2020-11-26)

Facebook唤起我国消费者对隐私的保护意识

消费者研究：美国成年人认为纸媒报道假新闻占39%

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

人工智能