美文网首页机器学习
机器学习[1.1] - Mann-Whitney U Test与

机器学习[1.1] - Mann-Whitney U Test与

作者: 屹然1ran | 来源:发表于2021-04-19 15:56 被阅读0次

    在了解U统计量与AUC之间的关系前,先复习一下Mann-Whitney U Test
    首先放上AUC在统计上的意义:

    随机选取一个正例和一个负例,分类器给正例的打分大于分类器给负例的打分的概率

    1. Mann-Whitney U Test

    Mann-Whitney U Test常常用来判断两个群体间的分布是否相同。在统计学上,该检验的null hypothesis与alternative hypothesis为:

    \begin{aligned} H_0: 两个群体的分布相同 \\ H_1: 两个群体的分布不同 \end{aligned}

    1.1 例子:龟兔赛跑

    假设伊索不满意龟兔赛跑的结果,他想要一个具有泛性的比赛结果。于是他找来了8只乌龟,8只兔子,让他们同时赛跑,最后的比赛名次为:
    兔、兔、兔、兔、兔、兔、兔、龟、龟、龟、龟、龟、龟、龟、龟、兔。

    每只乌龟战胜的兔子量为:1、1、1、1、1、1、1、1,则U_1 = 8
    每只兔子战胜的乌龟量为:8、8、8、8、8、8、8、0,则U_2 = 56
    则:
    U_1 + U_2 = 64

    更加泛性上来讲,U统计量的计算方式如下:

    \begin{aligned} U_1 &= R_1 - \frac{n_1(n_1+1)}{2} \\ U_2 &= R_2 - \frac{n_2(n_2+1)}{2} \end{aligned}

    其中R代表名次之和,n代表样本量。

    \begin{aligned} U_1 + U_2 &= R_1 - \frac{n_1(n_1+1)}{2} + R_2 - \frac{n_2(n_2+1)}{2} \\ \end{aligned}
    因为R_1, R_2均为排名之和,所以R_1+R_2 = N(N+1)/2,并且N = n_1 + n_2,所以

    U_1 + U_2 = n_1n_2

    回到龟兔赛跑的例子中,U_1 + U_2 = 8 \times 8 = 64
    解下来我们需要根据求得的U去决定结论是否显著,U = min([U_1, U_2]) = 8,从Mann-Whitney U test临界值表上可以看到,n_1 = 8, n_2 = 8\alpha = 0.05的情况下U = 13。因为8 < 13,所以我们便可以拒绝零假设,说明两个组的分布是不同的(均值/中位数不同),所以我们便可以认为兔子确实跑的比乌龟快。

    2. Roc面积与Mann-Whitney U统计量

    假设我们的分类器结果如以下表

    分类器Output

    n =总样本量
    e =预测为正的样本
    e'=预测为负的样本

    在不考虑排名相同的情况下(如上述表),我们预测的阈值每越过一个样本:

    • 初始为100%,则没有预测为正的样本,则TPR与FPR均为0;
    • 越过一个样本,阈值为95.2 - 98.4的任何数,则我们有一个TP(预测为正的样本,且该样本实际为正),则TPR上升,FPR不变,以此类推

    如果越过一个FP(预测为正的样本,但实际为负的样本),则TPR不变,FPR上升。我们将越过FP的数量,记为f

    ROC曲线

    所以,每次越过一个样本,ROC曲线增加的面积为:
    area \ gained = \frac{e'-f}{e'e}
    整体ROC曲线下的面积,即AUC为:

    \begin{aligned} AUC&= \sum_i^e \frac{e'-f_i}{e'e} \\ AUC&= 1- \frac{1}{e'e}\sum_i^e f_i \end{aligned}
    下一步我们需要计算\sum_i^e f_i。与上面龟兔赛跑的例子类似,我们可以使用两种方法计算

    分类器Output

    通过排名我们可以看到:
    每个0超过的1的数量为:4,1,1,1,0,0,0,则U_0 = 7
    每个1超过的0的数量为:8,8,8,7,7,7,4,则U_1 = 49
    U = 7

    泛性的公式如下:
    \begin{aligned} F &= \sum_{i=1}^{e}f_i \\ &= \sum_{i=1}^{e}(ri - i) \\ &= \sum_{i=1}^{e}ri - \frac{e(e+1)}{2}\\ &= 7 \end{aligned}
    AUC = 1 - \frac{1}{7\times 8} \times 7 = 0.775

    reference:
    Areas beneath the relative operating characteristics (ROC) and relative operating levels (ROL) curves: Statistical significance and interpretation

    相关文章

      网友评论

        本文标题:机器学习[1.1] - Mann-Whitney U Test与

        本文链接:https://www.haomeiwen.com/subject/nduxlltx.html