摘要
本文提出了使用深度学习模型学习社交行为和内容的表征来检测社交机器人。
社交行为有内因和外因(内因如人的昼夜节律,外因如周末和节假日人们花费更多的时间使用社交媒体),提出的模型学习这些因素造成的社交行为。对于内容的表征,抽取内容之间的时间模式,而不是仅仅抽取内容数据。
介绍
本文中,我们提取来一个新奇的社交机器人检测模型(DBDM),聚焦与学习社交用户的表征,自动识别并检测机器人。利用了内因和外因对用户行为的影响。除了传统的启发式特征。本方法使用CNN-LSTM模型将用户历史推特数据作为时间文本数据探索潜在的时间模式。避免了繁琐的特征工程。
深度机器人检测模型
深度机器人检测模型图提出了DBDM模型来抓取用户的社交行为的潜在特征和内容信息。DBDM由三层组成:输入层,表征层和融合层。
- 输入层接受推特和时间戳,并且将每一个推特使用词嵌入转化为推特矩阵。
- 表征层包含来两个组件,一个是社交行为组件,一个是时间内容组件。
- 融合层通过组合行为和内容的信息生成用户的表征信息。
在融合层的顶部加了一个全连接层和一个softmax层获得分类标签。
社交行为表征
本文考虑到真实账号应该有受到内应和外因的影响,导致发文的内容的行为能反映出这些影响。比如在白天时段发送的内容多,在节假日的内容发送的多。那么就可以将一天的时间以分钟为单位划片,统计每个单位发文或者转推的数量。将其作为向量。并将一段时间按一天一天的向量拼接起来形成特征向量序列如下图:
特征序列向量
同时因为外源性因素需要存储长时间的序列,所以就用了两层的LSTM作为深度模型抽取特征向量,并将最后一步隐藏层的输出作为抽取的行为表征向量。
时间内容表征
在这部分用CNN-LSTM模型来抽取内容上的时间特征。即首先用CNN对一个词嵌入矩阵表征进行卷积和滤波。将其编程一个行向量,最后将所有推文的行向量拼接起来组成一个序列输入到LSTM中从而也能抽取用户内容中隐藏的时间模式。
融合层
融合公式通过上述公式对于用户的行为特征和时间内容特征进行融合。进行分类。
实验
数据集是使用的A new approach to bot detection: striking the balance between precision and recall.研究中发布的数据。
对比的基线方法都有
- Boosting 包含用户图,社交网络,内容和历史四种类型的特征
- BoostOR 启发式方法
- Stweeler 利用用户的数据和推文内容进行分类
结果
对比结果可以看出F1指标DBDM要好很多。
本文的关键思路就是抽取用户用户行为在时间序列上的信息。以及抽取用户在内容以时间序列上产生的信息。
本文的缺点就是没有联合考虑到用户的账户元信息。
可以与之前的方法进行融合。
总结自--ACM International Conference on Information and Knowledge Management等, 编, CIKM 2017: Proceedings of the 2017 ACM Conference on Information and Knowledge Management : November 6-10, 2017 : Singapore, 2017.
网友评论