美文网首页
2019-07-07

2019-07-07

作者: wwang945 | 来源:发表于2019-07-08 01:25 被阅读0次

    [WWW 2019] Self- and Cross-Excitation in Stack Exchange Question & Answer Communities

    • 一篇研究QA社区发展的文章
    • 利用Hawkes processes,探索了社区用户之间的自我激励和交叉激励现象,包括科技和人文两个主题
    • 本文发现,成长中的社区的早期阶段,一小部分核心用户对社区整体的反应具有较高的交叉激励,特别是普通用户的交叉激励,长期自我激励较强
    • 此外,本文还观察到人文学科的社区呈现出长期的核心用户交叉激励,而在科技社区群体中,活跃度更均匀地分布于普通用户的自我激励
    • 该研究可以让研究者定量地评估QA社区的发展和潜力

    [WWW 2019] The Few-get-richer: A Surprising Consequence of Popularity-based Rankings

    • 在基于流行度排名的系统中,本文研究发现了一个现象:同个类别拥有越少的item,这个类别整体能得到越多的流行度
    • 例如,在news排序中,每次一个列表有20个news,当其中“左倾”的news只有3个的时候,得到的click数比它有17个的时候多
    • 首先有几个假设:1. 用户趋向于点击排序靠前的item;2. 用户有多样的偏好,例如用户a偏爱某个类别,用户b偏爱另一个类别,用户c对类别不care
    • 本文模拟了一个简单的场景,item有0和1两类,用户有0,1,2三类,0类的用户偏爱0类的item,2类的用户对item的类别没有偏好
    • 所以0类用户会喜欢在列表中找靠前的0类item,就算在整个列表中排序靠后,2类用户则不看类别,只偏好于在列表中靠前的item,然后item后根据历史的流行度重新排序
    • 这样久而久之,如果1类的item很少,因为喜欢1类的用户是一定的,那么1类的每个item得到平均流行度较高,然后就排序靠前了,排序靠前之后就能进一步得到2类用户的click了,就得到了更高的流行度
    • 如下图,M1表示1类item在列表中的数量,左图中beta越大,表示用户click行为越依赖于排名。中间图p2表示2类的用户的存在概率,可以发现2类用户越少,The Few-get-richer现象越不明显。有图中lr表示0类用户与1类用户的比例,可以发现,比例对The Few-get-richer现象影响不大


      模拟场景中的依赖分析
    • 下图为在真实世界中的现象,1类的item一开始排在最后,可以看出M1是2的时候,最后1类的item都排到前面去了


      真实世界场景的现象

    [WWW 2019] Signals Matter: Understanding Popularity and Impact of Users on Stack Overflow

    • 分析stack overflow社区上面的用户影响力和流行度
    • 从“数字信号理论”方面来分析
    • 发现重要的徽章、荣誉值、和用户年龄和用户的流行度集影响力呈正相关
    • 还发现,存在高成本和难以观察到的信号,可以区分高影响力用户和高流行度用户

    [WWW 2019] Multimodal Review Generation for Recommender Systems

    • review文本生成
    • 与其他工作的一个区别是,本文通过user和item,同时预测打分和review文本
    • 同时还增加了图片特征,也就是把图片也当做一个输入来生成review文本
    • 对于打分预测,就是把user Embedding和item Embedding拼起来,通过多层非线性层,得到user和item的整体表示,然后用来预测打分
    • 对于文本生成,用的LSTM,每个时刻输入除了上一个词,还有user和item的整体表示,和图片的表示,做Attention(两个表示加权求和)
    • 图片的表示则用LSTM的hidden state当做qquery对VGG之后的图片做Attention


      整体模型图
    • 主要贡献:提出了这么一个新的问题(利用user+item+image同时预测评分和生成评论),然后提出了一个深度学习框架来解决这个问题。

    [KDD 2018] Multi-task Representation Learning for Travel Time Estimation

    • 做出行时间估计,就是给定起点,目的地,出发时间,估计到达目的地需要的时间
    • 这个问题的两个挑战,1是数据信息有限,2是具有复杂的时空依赖
    • 本文通过引入额外的数据和学习多任务时空表示来解决这个问题
    • 首先,本文增加了路网,就是两个区域之间有没有路(link),然后通过无监督的预训练得到link Embedding
    • 然后对空间的Embedding,把经纬度单独做Embedding,每个点的Embedding就是纬度的Embedding拼起来
    • 时间的Embedding与空间的类似,把每周的天做Embedding,和每天的时间做Embedding,然后把这两个拼起来
    • 整体框架如下图,得到每个特征的Embedding之后,用ResNet学习整体的表示,然后做多任务学习,辅助任务包括预测距离、预测link数量、预测红绿灯数量。预测转弯数量等


      整体框架图
    • 主要贡献:提出了一个多任务学习的框架来预测出行时间,而且在输入数据中引入了路网的数据。

    [KDD 2018] Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks

    • 阿里的文章
    • user Embedding学习,用于多个任务
    • 当前很多场景中,每个任务有各自学习出来的user Embedding,这样没有共享一些有用的信息
    • 本文通过用户的多种历史行为数据对用户的Embedding建模,对多个任务学习一个统一的user表示
    • 首先把多种类别的用户历史行为输入到LSTM,然后通过Attention得到用户行为表示,和用户特征Embedding拼起来当做用户表示,如下图


      user表示建模
    • 多任务包括CRT预测、排序、价格偏好预测、风格偏好预测、店铺预测
    • 主要贡献:提出了统一学习user Embedding的多任务学习框架。

    Coupled Graph Neural Networks for Predicting the Popularity of Online Content

    • 微博转发量预测,但是利用了社交网络,知道已经转发过的用户
    • 以前的工作都没有用到初始发布者和之后转发者的交互等信息,不是真正的cascading effect
    • 本文利用Graph NN对社交网络建模,节点是每个用户,边是follow的关系
    • 用了两个Graph,一个是影响力Graph,一个是状态Graph
    • 状态Graph中,每个节点用一个0~1的值表示,初始化为0或者1,1表示该用户已经转发了该内容
    • 影响力Graph中每个节点是一个向量表示
    • 两个Graph一起交互的更新, 最后预测的流行度就是状态Graph每个节点值的和,整体框架图如下:


      整体框架图
    • 主要贡献:考虑到了社交网络的在线内容流行度预测,并使用一对Graph NN来模拟内容转发的cascading对社交网络建模。

    相关文章

      网友评论

          本文标题:2019-07-07

          本文链接:https://www.haomeiwen.com/subject/itniqctx.html