文章名称
【AAAI-2019】【Rutgers University】Dynamic Explainable Recommendation Based on Neural Attentive Models
核心要点
文章旨在解决现有可解释性推荐模型,只建模用户固有兴趣,忽略用户兴趣迁移的问题。作者利用GRU建模用户的动态性趣,利用CNN提取用户评论中的兴趣迁移信息。兴趣迁移建模不仅提升了模型性能,同时可以利用用户现有的兴趣给出模型决策的解释。
上节介绍了作者研究的问题背景,以及引入Time gate修改GRU的思路,本节继续介绍物品评分建模,以及解释评分。
方法细节
问题引入
如前所属,现有模型(2019年时期)把所有评论汇总成一个文档进行处理,导致不能够利用细节进行解释。因此,作者提出了更细粒度的方法,在用户维度解释相关评分较高的原因。
具体做法
首先回顾一下问题的定义。
文章要解决的问题可以被形式化的定义如下,
- 用户集合为,物品集合为;
- 用户的行为序列观测集合为,表示该用户的样本标号,为样本总数,所有用户的观测记录为;
- 用户在时刻,对物品的评分记作,评论记作;
- 模型f的目标是,对给定用户-物品元组,给出预测评分,并能够基于当前时刻t的用户兴趣,利用模型的中间结果给出模型决策的解释。
DER
item profile
作者表示相比于item,用户对物品的评论更能反应物品的属性特质。因此,作者利用CNN处理用户的评论文本。不同于其他研究,作者采用CNN分别处理每一个句子(具体公式如下图所示),而不是把所有句子凑成一个文本。
cnn for review text一套基本的CNN操作之后,对于每一个单独的句子得到embedding向量。
Explainable Rating prediction
基于上述得到的用户行为表示和物品的评论表示矩阵(一组句子向量),可以把物品的各种特征投影到用户的兴趣向量上,投影方式是加权求和,利用计算的attention score进行加权。权重的具体的计算公式如下图所示(注意是每个句子一个权重)。其中,是softmax的temperature参数。
projection weighting基于上述注意力参数,可以解释用户更关注哪一句话,或者说哪一句话的核心内容是用户做出决定的原因。并且可以得到物品在用户偏好下的表示(反映了不同的用户关注同一个物品的不同特质)。
除此之外,作者还为了提升模型的鲁棒性和性能引入了额外的用户和物品embedding,(这两个向量应该是随机初始化的)。随后,利用(就是Factorization Machine),来学习和的特征交叉,具体公式如下图所示,其中,表示向量拼接操作。
auxiliary embeddings最后,作者用MSE结合正则化训练模型。
total loss心得体会
利用attention score进行解释
这是一个比较典型的基于attention的可解释模型,只不过这个attention是在句子层级,不像其他基于aspect的方法那样,能够定位到具体的物品特质上。
LSTM而不是BERT,时光荏苒
文章是2019年的,可以看出那个时候BERT还没有流行,并且确实很多基于aspect可解释方还没有发展起来。后来(在反事实解释之前)推荐可解释模型分为attention和aspect两大流派,模型也更多的利用了attention的思想。
网友评论