文章名称
【WSDM-2021】【Google】Interpretable Ranking with Generalized Additive Models
核心要点
文章旨在解决ranking场景下,现有可解释模型精度不够的问题,提出将天生具有可解释性的广义加法模型(GAM)作为引入ranking场景,作为可解释排序模型。作者研究了如何将GAM应用到item和list级别的排序模型上,并利用神经网络而不是样条回归或回归树作为GAM排序模型。在此基础上利用蒸馏的方法,可以将神经排序模型蒸馏到更简单的分段函数。
上一节介绍了作者研究的背景和目的,主要是在平衡模型的复杂度和可解释性能。形式化表述了问题,并回顾了GAM的形式。本节继续介绍ranking场景下的GAM。
方法细节
问题引入
如上一节所述,ranking模型的可解释性在一些领域十分重要,例如法律、政策。排序模型中特征的贡献应该是可检查和可理解的,以确保结果的透明性、公平性,并且如果出现问题时可以追查到具体原因。虽然GAM具有很好的可解释性,也因为比较简单,很少被应用到ranking场景。
为了平衡模型的复杂度和可解释性能,作者探索在ranking场景下,引入GAM。
具体做法
首先,回顾一下背景问题的形式化定义,
- 数据集表示观测的数据集,整体观测数据集包括个样本。其中,分别表示查询query的向量(或者推荐的用户上下文向量),物品集合的特征矩阵(矩阵中的每一个向量表示一个物品的特征向量)以及物品和query的相关度标签(可以是0或1,也可以是表示相关性的有序列表)。
- 策略空间记作,而最优策略可以依据估计的相关性得分得到。
- 排序模型记作,最优策略可以通过在观测数据上训练模型来近似,
- 在文章的研究场景下,作者利用点估计函数,可以得到查询与物品相关性的估计值。如前所述,利用点估计的值,对物品进行排序,可以得到排序列表。
Ranking GAM
如前所述,GAM通常应用于回顾场景,其公式可以近似表示为如下图所示(这里,去掉了link function)。事实上,这种表示形式,可以被看做是一种context-absent排序问题,即没有利用查询特征。知道注意的是,查询特征并不是完全没有利用到,而是被融入了物品特征中,而不再额外表示其他查询特征了。例如,BM25,就是把查询语句和文档的重合的部分,融合在了物品特征中。
context-absent ranking但是,通常会有一些查询特征是不能够融入到物品特征里的。因此,需要单独表述查询特征。一种直接的办法是,分别对查询特征独立建模函数。
context-present ranking但是,这种方法存在2个问题,导致模型不能够很好的学习上下文(查询)信息,
- 很多时候模型会建模导致,并且两个物品的查询是相同的。因此,查询特征会被互相抵消。
- 很多时候,排序的评估指标只关心最终的结果列表中物品的顺序,这和查询特征子模型关系也不大。
因此,作者利用查询文内容来确定GAM的权重,其公式如下图上所示。其中可以是任意的可学习函数(神经网络之类的)。这里可以用来细致的分析模查询中的哪一个元素(term)和哪一个物品特征的交互对最终排序影响较大。
query context to weight并且,**值得注意的是,上述公式可以被分解为查询整体权重和物品特征的形式(如下图所示)。
query context to weight with query as whole其中,。这样做的好处是可以判断不同查询下,哪些物品特征影响更大。例如,在搜索任务中,如果用户搜索酒店,距离等项目特征可能更重要,而如果用户搜索会议中心,则内容相关性可能更重要。
Neural Ranking GAM
Context-Absent
基于上述思路,作者提出一个具体的实现方法(模型实例),neural ranking GAM。首先看context-absent的场景,其整体框架如下图所示。遵循GAM的形式,作者为每一个单独的物品特征构建独立的神经网络,每个特征的独立神经网络可以有不同的结构。
framework of neural ranking GAM in context-absent setting作者采用FFN的结构,其具体计算公式如下。其中,是Relu[39]。
formulation of neural GAM in context-absent setting随后,把学到的隐向量表示再过一个FFN,得到该物品、该特征的sub-score。
sub-score物品整体的排序得分,可以通过对所有特征的sub-score求和得到。
item score在Context-Present场景下,需要利用查询上下文,来学习求和的权重,其整体模型结构如下图所示。
framework of neural ranking GAM in context-present setting同物品特征得分一样,作者采用FFN计算每一个查询元素的隐向量表示,并最终利用一个softmax层得到该查询元素的权重。**值得注意的是,该查询权重是一个向量,向量中的每一个元素表示查询的第元素和物品的第个特征的权重。具体计算公式如下图所示。
sub term sub weight使用softmax层是为了防止派生的重要性权重,在某些项目特征上为负数或非常大的值,这类极端值将大大损害模型的可解释性。
本节介绍了作者提出的ranking GAM思想(或者说解决问题的框架)以及其具体实例Neural Ranking GAM。下一节继续介绍模型的训练以及蒸馏等操作。
心得体会
Attention
个人感觉,上述利用query的特征计算权重有点类似attention,但是没有引入item的部分,所以不能算attention,因为没有交互。其实,也可以利用query特征来和物品特征交互,不过,模型会变得复杂且不可解释,无法提升效率和可解释性。本质上,还是再利用一些简化假设的方法和先验知识来进行性能和可解释性的平衡。
文章引用
[6] ChristopherJ.C.Burges.2010.FromRankNettoLambdaRanktoLambdaMART:
An Overview. Technical Report Technical Report MSR-TR-2010-82. Microsoft
Research.
[19] Trevor Hastie and Robert Tibshirani. 1986. Generalized Additive Models. Statist.
Sci. 1, 3 (1986), 297–318.
[31] Yin Lou, Rich Caruana, and Johannes Gehrke. 2012. Intelligible models for
classification and regression. In KDD.
[39] VinodNairandGeoffreyEHinton.2010.Rectifiedlinearunitsimproverestricted boltzmann machines. In ICML.
[51] Cynthia Rudin. 2019. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead. Nature Machine Intelligence 1, 5 (2019), 206.
[53] Sofia Serrano and Noah A Smith. 2019. Is Attention Interpretable?. In ACL.
网友评论