2019-07-07

作者: wwang945 | 来源:发表于2019-07-08 01:25 被阅读0次

[WWW 2019] Self- and Cross-Excitation in Stack Exchange Question & Answer Communities

一篇研究QA社区发展的文章
利用Hawkes processes，探索了社区用户之间的自我激励和交叉激励现象，包括科技和人文两个主题
本文发现，成长中的社区的早期阶段，一小部分核心用户对社区整体的反应具有较高的交叉激励，特别是普通用户的交叉激励，长期自我激励较强
此外，本文还观察到人文学科的社区呈现出长期的核心用户交叉激励，而在科技社区群体中，活跃度更均匀地分布于普通用户的自我激励
该研究可以让研究者定量地评估QA社区的发展和潜力

[WWW 2019] The Few-get-richer: A Surprising Consequence of Popularity-based Rankings

在基于流行度排名的系统中，本文研究发现了一个现象：同个类别拥有越少的item，这个类别整体能得到越多的流行度
例如，在news排序中，每次一个列表有20个news，当其中“左倾”的news只有3个的时候，得到的click数比它有17个的时候多
首先有几个假设：1. 用户趋向于点击排序靠前的item；2. 用户有多样的偏好，例如用户a偏爱某个类别，用户b偏爱另一个类别，用户c对类别不care
本文模拟了一个简单的场景，item有0和1两类，用户有0,1,2三类，0类的用户偏爱0类的item，2类的用户对item的类别没有偏好
所以0类用户会喜欢在列表中找靠前的0类item，就算在整个列表中排序靠后，2类用户则不看类别，只偏好于在列表中靠前的item，然后item后根据历史的流行度重新排序
这样久而久之，如果1类的item很少，因为喜欢1类的用户是一定的，那么1类的每个item得到平均流行度较高，然后就排序靠前了，排序靠前之后就能进一步得到2类用户的click了，就得到了更高的流行度
如下图，M1表示1类item在列表中的数量，左图中beta越大，表示用户click行为越依赖于排名。中间图p2表示2类的用户的存在概率，可以发现2类用户越少，The Few-get-richer现象越不明显。有图中lr表示0类用户与1类用户的比例，可以发现，比例对The Few-get-richer现象影响不大

模拟场景中的依赖分析
下图为在真实世界中的现象，1类的item一开始排在最后，可以看出M1是2的时候，最后1类的item都排到前面去了

真实世界场景的现象

[WWW 2019] Signals Matter: Understanding Popularity and Impact of Users on Stack Overflow

分析stack overflow社区上面的用户影响力和流行度
从“数字信号理论”方面来分析
发现重要的徽章、荣誉值、和用户年龄和用户的流行度集影响力呈正相关
还发现，存在高成本和难以观察到的信号，可以区分高影响力用户和高流行度用户

[WWW 2019] Multimodal Review Generation for Recommender Systems

review文本生成
与其他工作的一个区别是，本文通过user和item，同时预测打分和review文本
同时还增加了图片特征，也就是把图片也当做一个输入来生成review文本
对于打分预测，就是把user Embedding和item Embedding拼起来，通过多层非线性层，得到user和item的整体表示，然后用来预测打分
对于文本生成，用的LSTM，每个时刻输入除了上一个词，还有user和item的整体表示，和图片的表示，做Attention（两个表示加权求和）
图片的表示则用LSTM的hidden state当做qquery对VGG之后的图片做Attention

整体模型图
主要贡献：提出了这么一个新的问题（利用user+item+image同时预测评分和生成评论），然后提出了一个深度学习框架来解决这个问题。

[KDD 2018] Multi-task Representation Learning for Travel Time Estimation

做出行时间估计，就是给定起点，目的地，出发时间，估计到达目的地需要的时间
这个问题的两个挑战，1是数据信息有限，2是具有复杂的时空依赖
本文通过引入额外的数据和学习多任务时空表示来解决这个问题
首先，本文增加了路网，就是两个区域之间有没有路（link），然后通过无监督的预训练得到link Embedding
然后对空间的Embedding，把经纬度单独做Embedding，每个点的Embedding就是纬度的Embedding拼起来
时间的Embedding与空间的类似，把每周的天做Embedding，和每天的时间做Embedding，然后把这两个拼起来
整体框架如下图，得到每个特征的Embedding之后，用ResNet学习整体的表示，然后做多任务学习，辅助任务包括预测距离、预测link数量、预测红绿灯数量。预测转弯数量等

整体框架图
主要贡献：提出了一个多任务学习的框架来预测出行时间，而且在输入数据中引入了路网的数据。

[KDD 2018] Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks

阿里的文章
user Embedding学习，用于多个任务
当前很多场景中，每个任务有各自学习出来的user Embedding，这样没有共享一些有用的信息
本文通过用户的多种历史行为数据对用户的Embedding建模，对多个任务学习一个统一的user表示
首先把多种类别的用户历史行为输入到LSTM，然后通过Attention得到用户行为表示，和用户特征Embedding拼起来当做用户表示，如下图

user表示建模
多任务包括CRT预测、排序、价格偏好预测、风格偏好预测、店铺预测
主要贡献：提出了统一学习user Embedding的多任务学习框架。

Coupled Graph Neural Networks for Predicting the Popularity of Online Content

微博转发量预测，但是利用了社交网络，知道已经转发过的用户
以前的工作都没有用到初始发布者和之后转发者的交互等信息，不是真正的cascading effect
本文利用Graph NN对社交网络建模，节点是每个用户，边是follow的关系
用了两个Graph，一个是影响力Graph，一个是状态Graph
状态Graph中，每个节点用一个0~1的值表示，初始化为0或者1,1表示该用户已经转发了该内容
影响力Graph中每个节点是一个向量表示
两个Graph一起交互的更新，最后预测的流行度就是状态Graph每个节点值的和，整体框架图如下：

整体框架图
主要贡献：考虑到了社交网络的在线内容流行度预测，并使用一对Graph NN来模拟内容转发的cascading对社交网络建模。

网友评论

本文标题：2019-07-07

本文链接：https://www.haomeiwen.com/subject/itniqctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2019-07-07

[WWW 2019] Self- and Cross-Excitation in Stack Exchange Question & Answer Communities

[WWW 2019] The Few-get-richer: A Surprising Consequence of Popularity-based Rankings

[WWW 2019] Signals Matter: Understanding Popularity and Impact of Users on Stack Overflow

[WWW 2019] Multimodal Review Generation for Recommender Systems

[KDD 2018] Multi-task Representation Learning for Travel Time Estimation

[KDD 2018] Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks

Coupled Graph Neural Networks for Predicting the Popularity of Online Content

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读