美文网首页
机器学习笔记:重拾AUC计算公式

机器学习笔记:重拾AUC计算公式

作者: 迪吉老农 | 来源:发表于2019-02-03 15:48 被阅读0次

@作者: 机器学习算法 @迪吉老农

AUC这个指标在排序问题里经常用到,之前也有个模糊的印象,就是一个排序正确的比例。

这个模糊印象是,

  • 分母是选两个例子的的方式数
  • 分子是这两个例子的预测顺序正确的次数

但是今天看了一个python的实现,发现不是很能理解里面的公式,于是赶紧查了一下维基百科的定义,

the probability that a classifier will rank a randomly chosen positive instance higher than a randomly chosen negative one (assuming 'positive' ranks higher than 'negative').

上面的意思是,

  • 分母是分别选一个正例,一个负例的方式数
  • 分子是这两个例子的预测顺序正确的次数

也就是去掉两个负例或者两个正例,这两种情况。想来也是,这种数据属于不知道是对还是错,无法标定,不应该放到准确率中计算。

于是自己试着用一个例子来辅助推导一下公式,如下表所示,y是现实的正负例,\hat{y}是模型给出的预测的分数,

index y \hat{y}
0 1 0.9
1 0 0.5
2 1 0.8
3 0 0.7
4 1 0.6

我们需要计算
\text{AUC} = \text{P}(\hat{y}_{1}\ge \hat{y}_{0})
其中的\hat{y}_0\hat{y}_1是随机的一对正负例y_0y_1的预测值。

按照定义,分母就是从正例选一个,从负例选一个的方式数,
\text{denominator}= n_{pos} n_{neg} = 3 \times2 = 6
分子要看预测的分数,一个直接的想法是去生成一个矩阵,比较预测分数,正例和负例谁大,如下面的表格,

正例 1 3
0 1(.9>.5) 1(.9>.7)
2 1(.8>.5) 1(.8>.7)
4 1(.6>.5) 0(.6<.7)

然后去计算矩阵的sum就是正确排序数
\text{nominator} = \text{mat.sum()} = 5
但是这个计算方式有性能问题,类似于冒泡排序的计算量O(n^2);高效一点的实现就是先全排序,复杂度是O(n\log(n)),生成一个下面的表中rank值,表明每个值排在第几个位置,

index y \hat{y} tied_rank
0 1 0.9 5
1 0 0.5 1
2 1 0.8 4
3 0 0.7 3
4 1 0.6 2

注释,这里的tied_rank是指,分数一样的话,几个平分一个rank,比如,

>>> tied_rank([1.0, 0.1, 0.8, 0.7, 0.6])
[5.0, 1.0, 4.0, 3.0, 2.0]
>>> tied_rank([1.0, 0.1, 0.7, 0.7, 0.6])
[5.0, 1.0, 3.5, 3.5, 2.0]

继续说回来,如果一个正例在整体中从低分到高分,排在第k个,那么他比k-1个数大。不过,里面既有正例也有负例,我们必须知道里面的正例/负例数才行。所以还需要一个只保留正例的计算,如下表。假设他在正例中排第k_{pos},在全体中排第k,那么他比k-k_{pos}个负例大,也就是我们在分子中,要进行求和的对象。

index y \hat{y} tied_rank pos_rank
0 1 0.9 5 3
2 1 0.8 4 2
4 1 0.6 2 1

所以,分子的计算可以写成,
\sum_{\text{positives}}{(k - k_{pos})} = (5-3) + (4-2) + (2-1) = 5
上面的公式又可以化简,这是因为\sum{k_{pos}}其实是是固定的值,只和正例的数目有关系,
\sum_{\text{positives}}{k_{pos}} = n_{pos} + (n_{pos}-1) + ...+1 = \frac{n_{pos}(n_{pos}+1)}{2}
所以最终的公式为

\text{AUC} = \frac{\sum_{\text{positives}}{k} -\frac{n_{pos}(n_{pos}+1)}{2}}{n_{pos}n_{neg}}
最后,贴一下网上开源的代码benhamner/Metrics,里面就是这个计算公式。

def auc(actual, posterior):
    """
    Computes the area under the receiver-operater characteristic (AUC)
    This function computes the AUC error metric for binary classification.
    Parameters
    ----------
    actual : list of binary numbers, numpy array
             The ground truth value
    posterior : same type as actual
                Defines a ranking on the binary numbers, from most likely to
                be positive to least likely to be positive.
    Returns
    -------
    score : double
            The mean squared error between actual and posterior
    """
    r = tied_rank(posterior)
    num_positive = len([0 for x in actual if x==1])
    num_negative = len(actual)-num_positive
    sum_positive = sum([r[i] for i in range(len(r)) if actual[i]==1])
    auc = ((sum_positive - num_positive*(num_positive+1)/2.0) /
           (num_negative*num_positive))
    return auc

版权声明

以上文章为本人@迪吉老农原创,首发于简书,文责自负。文中如有引用他人内容的部分(包括文字或图片),均已明文指出,或做出明确的引用标记。如需转载,请联系作者,并取得作者的明示同意。感谢。

相关文章

网友评论

      本文标题:机器学习笔记:重拾AUC计算公式

      本文链接:https://www.haomeiwen.com/subject/pbwysqtx.html