美文网首页
【算法】AUC与ROC

【算法】AUC与ROC

作者: 猪猪奋斗记 | 来源:发表于2021-03-30 17:32 被阅读0次

ROC(Receiver Operating Characteristic)

主要分析工具是一个画在二维平面上的曲线——ROC curve。

平面的横坐标是 false positive rate(FPR),纵坐标是 true positive rate(TPR)。

相关概念

True Positive Rate(真正率 , TPR)或灵敏度(sensitivity)

TPR=\frac{正样本预测结果数 }{正样本实际数}
TPR = \frac{TP} {TP + FN}

False Positive Rate (假正率, FPR)

FPR = \frac{被预测为正的负样本结果数 }{负样本实际数 }

FPR = \frac{FP} {FP + TN}

False Negative Rate(假负率 , FNR)

FNR = \frac{被预测为负的正样本结果数}{正样本实际数}
FNR = \frac{FN} {TP + FN}

True Negative Rate(真负率 , TNR)或特指度(specificity)

TNR = \frac{负样本预测结果数 }{ 负样本实际数 }
TNR = \frac{TN} {TN + FP}

image

提出ROC的原因

这里写图片描述
由分类器决定的统计的图像是固定的,但是由于阈值不同,我们可以得到不同的,TPR,FPR,TNR,FNR值。因此我们需要找到一个独立于阈值,只和分类器有关的衡量分类器的标准。还有是在样本正负样本不平衡的情况下更好的评估分类器的性能。

AUC (Area Under roc Curve)

AUC是一种用来度量分类模型好坏的一个标准,Auc作为数值可以直观的评价分类器的好坏,值越大越好。
几何意义:
ROC 图像下方的面积
物理意义:
取出一个正样本与一个负样本,正样本的Score大于负样本的Score的概率,Score表示置信度

计算AUC

方法一:直接计算下方的面积,比较麻烦,需要计算若干个梯形的面积的和。
方法二:计算正样本score大于负样本的score的概率,时间复杂度为O(N*M)
方法三:将所有的样本按照score升序排序,依次用rank表示他们,如最大score的样本,rank=n(n=N+M),其次为n-1。那么对于正样本中rank最大的样本,rank_max,有M-1个其他正样本比他score小,那么就有(rank_max-1)-(M-1)个负样本比他score小。其次为(rank_second-1)-(M-2)。
AUC = \frac{\Sigma_{正样本} rank -\frac{M*(M+1)}{2}}{N*M}

Code

#-*- coding:utf-8 -*-
import pandas as pd
import numpy as np
from sklearn.metrics import roc_auc_score

def calc_auc(df):
    Score = sorted(df.values, key=lambda a_entry: a_entry[1])
    N = 0;M = 0
    for item in Score:
        if item[0] == 0:
            N += 1
        else:
            M += 1
    Sigma = 0
    for i in range(N+M-1,-1,-1):
        if Score[i][0] == 1:
            Sigma += i+1
    return float((Sigma-M*(M+1)/2.0)/(N*M))

def main():
    df = pd.read_csv('./data.csv',header=None)
    Ports = list(enumerate(np.unique(df[0])))
    Ports_dict ={label : i for i,label in Ports}
    df[0]=df[0].map(lambda x : Ports_dict[x]).astype(int)
    print roc_auc_score(df[0].values,df[1].values)
    print calc_auc(df)

if __name__ == '__main__':
    main()

data

p,0.9
p,0.8
p,0.6
n,0.7
p,0.54
p,0.55
n,0.53
n,0.52
p,0.51
n,0.505
p,0.4
n,0.39
p,0.38
n,0.37
n,0.36
n,0.35
p,0.34
n,0.33
p,0.3
n,0.1

参考资料

相关文章

  • 【算法】AUC与ROC

    ROC(Receiver Operating Characteristic) 主要分析工具是一个画在二维平面上的曲...

  • sklearn notes

    Difference between roc_auc_score() and auc() AUC is not a...

  • 4.machine_learning_eval_metric_a

    1.机器学习指标ROC与AUC 1.1ROC与AUC AUC是一种模型分类指标,且仅仅是二分类模型的评价指标。AU...

  • 数据分析师笔试题1-常见聚类算法

    来源:小红书笔试-牛客网 一、算法基础 1 auc与 roc AUC:分类中一个正例,一个负例。预测为正的概率值比...

  • 房屋信贷违约风险竞争(kaggle)系列2-数据清理和格式化

    一. ROC和AUC ROC(受试者工作特征曲线)AUC(ROC曲线下的面积) 在诸如逻辑回归或者神经网络的分类器...

  • AUC与ROC

    序 分类任务不同于回归,本次记录一下分类任务中常用的评价指标AUC与ROC 混淆矩阵 在搞清楚ROC和AUC之前,...

  • ROC 与 AUC

    分类器或学习器为测试样本产生一个实值或概率预测值,相当于通过分类器为每个测试样本打分,如何评价分类器呢?最常用的指...

  • 西瓜书

    1.模型评估与选择 1.1 ROC与AUC ROC的横轴为真正例率TPR,纵轴为假正例率FPR定义为:,ROC曲线...

  • 评价指标

    AUC(Area under curve): ROC曲线下的面积。 AUC详解 :参考链接

  • 什么是 ROC AUC

    本文结构: 什么是 ROC? 怎么解读 ROC 曲线? 如何画 ROC 曲线? 代码? 什么是 AUC? 代码? ...

网友评论

      本文标题:【算法】AUC与ROC

      本文链接:https://www.haomeiwen.com/subject/gdpghltx.html