美文网首页
learning to rank算法总结之 pointwise

learning to rank算法总结之 pointwise

作者: 数据小新手 | 来源:发表于2018-11-09 12:59 被阅读0次

    在排序算法,常见的有三大类。分别是pointwise,pairwise和listwise。

    pointwise是处理单一文档,将文档转化为特征向量后,主要是将排序问题转化为机器学习中常规的分类或回归问题。

    当模型参数学习完毕后,之后就可利用模型进行相关性判断,对新的查询和文档,通过模型的打分函数可以得到一个数值,利用该数值即可对文档进行排序了。

    pointwise主要分为三类

    1.基于回归的算法

    基于回归的算法基本原理是通过将相关度的得分转化为连续变量,通过学习排序函数进行回归。

    2.基于分类的算法

    2.1 二分类算法,通过将目标值y转化为相关或者不相关,标记为+1,-1
    2.1.1基于svm的算法 ,使用svm的方法进行二分类,优点是可以自动学习特征,更少的假设。
    2.1.2基于logistic regression方法。

    2.2 基于多分类的方法

    2.2.1基于boost树模型的多分类方法:

    通过boost得分多分类的分类结果,再通过公式将多分类的结果转化为排序

    2.2.2 基于关联规则的方法:

    找到一个可以把特征X转化为分类y的规则,这个规则可以是pm25作为置信度,支持度。这个规则的支持度可以作为条件概率,并且设置最小的置信度。只有当置信度大于该值时才使用。之后通过将各个类别的置信度*类别相加,得到系数s。之后按s进行排序。

    s=\sum{y}\frac{\theta(y)}{\sum_y\theta(y)}

    2.3 排序回归算法

    通过对排序进行回归,使结果的排序满足于预先的排序

    2.3.1 基于感知器的排序

    使用多层感知器,直接对顺序进行回归,对每一层设定设定阈值,来选取适合的分类

    2.3.2 基于SVM的margin来选取,对每一类设置lower bound和upper bound的阈值
    2.3.3 多种loss functions回归

    同时使用hinge,exponential logistic square function 多种function 来做回归,然后用多种function的和来做最终的loss function.

    L(f;x,y)=\sum_{k=1}^K\phi(b_k-y)

    总结:

    pointwise 做rank时,可以对变量的相关性作出很强的反馈,经常用于提高检索的准确性。但是缺点也很明显。

    主要的缺点:

    1.pointwise的输入时单一的文档,文档和文档之间的相关顺序没有被考虑。然而排序主要是考虑结果之间的关系。

    2.有一些文档用相同的query但是有一些不是。当查询的结果不一样时,有的查询结果较大,有的较小,损失函数会受到较大结果的影响。

    3.在loss function中每个文章在rank list 中的位置不可见,对于排名靠后的结果准确率不高。

    pointwise直接对好,或者不好进行分类,这样没有考虑每次查询输入的不同,和结果之间的排序顺序。查询和查询

    参考文献:

    1.learning to rank

    相关文章

      网友评论

          本文标题:learning to rank算法总结之 pointwise

          本文链接:https://www.haomeiwen.com/subject/tdznxqtx.html