Popularity Prediction on Online Articles with Deep Fusion of Temporal Process and Content Features
概述
- 用文章早期的流行度变化趋势和文章内容预测文章最终的流行度
- 腾讯的文章,使用的微信文章的数据集
- 流行度预测的几个挑战:
- 流行度的波动会受一些外部的影响,而这些影响难以捕捉
- 文章的内容很大程度上决定了它的流行度,然而文章内容常常是多模态或者不方便建模的信息
- 也需要对时间和文章内容聚合,来估计文章在不同的生命周期的不同流行度
- 本文提出了一种能聚合时间过程和内容特征的方法:Deep Fusion of Temporalprocess and Content features (DFTC)
- 对于流行度随时间的变化过程,通过RNN和Attention CNN对其建模
- 对于多模态内容,通过分层Attention网络对其建模
- 最后通过一个时间Attention聚合来动态的整合上面两个特征
-
使用的微信的数据集
模型概览
具体方法
问题定义
- 分类问题,把文章的流行度n个区间分为n个类别
- 目标是在任何时间都可以预测文章属于哪个类别
- 把连续的时间聚合为多个离散的时间块
- 每个时间块里面,用户的反馈为这个时间块里面的view count,share count,comment count 和 like count等等
- 对于任意时间块,模型根据文章的内容和之前时间块的反馈预测流行度的类别
时间模块
- LSTM对历史时间块的反馈建模,得到,这可以捕捉流行度的长期增长趋势
- 用1维CNN对历史反馈做个特征提取,然后用Attention得到整体的表示,得到, 这可以捕捉流行度的短期波动
内容模块
- 文本建模:分层Attention(HAN),得到
- Embedding:把类别的特征做one-hot,然后做个变换,数值的特征直接做个变换,每个特征都能得到一个向量,然后把他们全部拼起来,再接FC(全连接层),得到
聚合模块
- 就是一个Attention把上面得到的4种向量加权求和起来
- 最后就是sofrmax预测多分类啦
网友评论