美文网首页
xgboost/src/objective/rank_obj.c

xgboost/src/objective/rank_obj.c

作者: 我永远喜欢高木同学 | 来源:发表于2020-05-26 10:17 被阅读0次

    src/objective/rank_obj.cu
    xgboost官方文档中说明objective:rank 中的方法都是通过LambdaMart来实现的

    数据结构:LambdaPair:包括pos_index(正索引) neg_index(负索引) 以及该lambdapair的权值(初始化为1)
    ListEntry:包含pred预测值、label标签值、rindex原样本的索引

    定义的类:

    这段代码的主体为类模版:LambdaRankObj 根据LambdaWeightComputerT模版参数取PairWiseComputer MAPLambdaWeightComputer NDCGLambdaWeightComputer三种值来实例化不同的模版类,主要的区别在于delta的计算。

    对父类中GetGradient方法进行了重载,由于rank回设置group所以要对当前group是否合理进行判断。(即大小是不是0以及pred和label的group大小是否一致)
    方法:ComputeGradients()
    形参: preds_h(预测值) labels(标签值) gpair(一阶与二阶梯度构成的pair)gptr(分组信息)
    内部容器:pairs 用来存储LambdaPair lst用来存储ListEntry rec存储预测值与在原group内的索引值
    按group对已有的数据进行操作
    先初始化当前group中的lst(pred,label,rindex) 以及 梯度对(初始化为0)
    Lambda的计算(对应xgboost中的g和h)
    先按预测值进行排序,再将label与原有的预测值排序后的index进行对应并存入rec中,再将rec按照label大小进行排序
    从i开始到rec的结尾产生随机数与当前下标匹配凑成pair(该过程由参数num_pairsample控制,当pairsample数量等于rec长度时就全部取样,小于时就取部分),当下标值小于当前index时pair pos_index = 随机数的index neg_index = i的index若随机数大于等于当前遍历的值则位置相反且 neg_index = 随机数index+1(防止产生相同的index)
    计算lambda的值,对每一个pair计算lambda并将其汇总加到某个index的lambda中,于此同时计算每一个pair的二阶梯度最后将得到的两项与group占的权重以及delta值相乘得到该sample的g与h xgboost可以通过每个sample对应的一二阶导数计算各点的增益从而对分裂点进行寻找

    PairWiseLambdaComputer
    weight为初始值1,getweight函数为空,最后直接与lambda相乘

    NDCGLambdaWeightComputer
    首先根据label对排序算出IDCG的值
    再根据输入的pos_index和neg_index计算出交换坐标导致的ndcg变化即delta数值,并将该数值以weight的形式存入pair中,最后与lambda相乘

    MAPLambdaWeightComputer
    根据pos_index neg_index以及两者的label和pred的值,计算在交换两者顺序的情况下的delta值,在计算完成后以weight的形式存入pair中,最后与lambda相乘

    相关文章

      网友评论

          本文标题:xgboost/src/objective/rank_obj.c

          本文链接:https://www.haomeiwen.com/subject/vnlmahtx.html