美文网首页
TaskOne-20190303

TaskOne-20190303

作者: XIN_fc5e | 来源:发表于2019-03-03 12:00 被阅读0次

    IMDB数据集探索

    数据探索与分析。
    链接:https://github.com/XinToWorld/NLP-/blob/master/IMDB%E7%BB%83%E4%B9%A0.ipynb

    ROC曲线、PR曲线

    召回率、准确率是二分类问题常用的评价指标。
    TP——正类判别成正类
    FN——正类判别成负类
    FP——负类判别成正类
    TN——负类判别成负类
    准确率定义为:
    P = \frac{TP}{TP+FP}
    召回率定义为:
    R = \frac{TP}{TP+FN}

    ROC曲线

    TPR与FPR
    ROC
    • ROC曲线常用于二分类问题中的模型比较,主要表现为一种真正例率 (TPR) 和假正例率 (FPR) 的权衡。具体方法是在不同的分类阈值 (threshold) 设定下分别以TPR和FPR为纵、横轴作图。由ROC曲线的两个指标,TPR=TP/(TP+FN),FPR=FP/(FP+TN)可以看出,当一个样本被分类器判为正例,若其本身是正例,则TPR增加;若其本身是负例,则FPR增加,因此ROC曲线可以看作是随着阈值的不断移动,所有样本中正例与负例之间的“对抗”。曲线越靠近左上角,意味着越多的正例优先于负例,模型的整体表现也就越好。
    AUC (Area Under the Curve)
    ROC2.png
    • 先看一下ROC曲线中的随机线,图中[0,0]到[1,1]的虚线即为随机线,该线上所有的点都表示该阈值下TPR=FPR,根据定义,TPR=TPP,表示所有正例中被预测为正例的概率;FPR=FPN,表示所有负例中被被预测为正例的概率。若二者相等,意味着无论一个样本本身是正例还是负例,分类器预测其为正例的概率是一样的,这等同于随机猜测(注意:这里的“随机”不是像抛硬币那样50%正面50%反面的那种随机)。
    • 上图中B点就是一个随机点,无论是样本数量和类别如何变化,始终将75%的样本分为正例。
    • ROC曲线围成的面积 (即AUC)可以解读为:从所有正例中随机选取一个样本A,再从所有负例中随机选取一个样本B,分类器将A判为正例的概率比将B判为正例的概率大的可能性。可以看到位于随机线上方的点(如图中的A点)被认为好于随机猜测。在这样的点上TPR总大于FPR,意为正例被判为正例的概率大于负例被判为正例的概率。
    • 从另一个角度看,由于画ROC曲线时都是先将所有样本按分类器的预测概率排序,所以AUC反映的是分类器对样本的排序能力,依照上面的例子就是A排在B前面的概率。AUC越大,自然排序能力越好,即分类器将越多的正例排在负例之前。
    ROC曲线的优点

    通过混淆矩阵图可以更方便理解:


    混淆矩阵.png
    • 兼顾正例和负例的权衡。因为TPR聚焦于正例,FPR聚焦于与负例,使其成为一个比较均衡的评估方法。
    • ROC曲线选用的两个指标,TPR=TP/P=TP/(TP+FN),FPR=FP/N=FP/(FP+TN),都不依赖于具体的类别分布。

    注意:TPR用到的TP和FN同属P列,FPR用到的FP和TN同属N列,所以即使P或N的整体数量发生了改变,也不会影响到另一列。也就是说,即使正例与负例的比例发生了很大变化,ROC曲线也不会产生大的变化,而像Precision使用的TP和FP就分属两列,则易受类别分布改变的影响

    ROC曲线的缺点
    • ROC曲线的优点是不会随着类别分布的改变而改变,但这在某种程度上也是其缺点。因为负例N增加了很多,而曲线却没变,这等于产生了大量FP。像信息检索中如果主要关心正例的预测准确性的话,这就不可接受了。
    • 在类别不平衡的背景下,负例的数目众多致使FPR的增长不明显,导致ROC曲线呈现一个过分乐观的效果估计。ROC曲线的横轴采用FPR,根据FPR=FP/(FP+TN),当负例N的数量远超正例P时,FP的大幅增长只能换来FPR的微小改变。结果是虽然大量负例被错判成正例,在ROC曲线上却无法直观地看出来。(当然也可以只分析ROC曲线左边一小段)
      举个例子,假设一个数据集有正例20,负例10000,开始时有20个负例被错判,FPR=20/(20+9980)=0.002,接着又有20个负例错判,FPR2=40/(40+9960)=0.004,在ROC曲线上这个变化是很细微的。而与此同时Precision则从原来的0.5下降到了0.33,在PR曲线上将会是一个大幅下降。

    PR(Precision Recall)曲线

    PR曲线展示的是Precision vs Recall的曲线,PR曲线与ROC曲线的相同点是都采用了TPR (Recall),都可以用AUC来衡量分类器的效果。不同点是ROC曲线使用了FPR,而PR曲线使用了Precision=TP/(TP+FP),因此PR曲线的两个指标都聚焦于正例。类别不平衡问题中由于主要关心正例,所以在此情况下PR曲线被广泛认为优于ROC曲线

    总结

    • ROC曲线由于兼顾正例与负例,所以适用于评估分类器的整体性能,相比而言PR曲线完全聚焦于正例。

    原文链接:https://www.cnblogs.com/massquantity/p/8592091.html

    相关文章

      网友评论

          本文标题:TaskOne-20190303

          本文链接:https://www.haomeiwen.com/subject/gmsyuqtx.html