美文网首页
(3)TP、FP、F1、ROC、PR曲线

(3)TP、FP、F1、ROC、PR曲线

作者: 顽皮的石头7788121 | 来源:发表于2018-11-07 10:14 被阅读0次

    (1)TP、FP、F1

            TP ——将正类预测为正类数;FP——将负类预测为正类;TN——将负类预测为负类数;FN——将正类预测为负类数;

            (精确率) P = \frac{TP}{TP+FP}

            (召回率) R= \frac{TP}{TP+FN}

              F1 是精确率和召回率的调和平均。\frac{2}{F1}  = \frac{1}{P} + \frac{1}{R} ;F1 = \frac{2TP}{2TP + FP + FN } 。当R和P都很高时候,F1系数额会很高

    (2)ROC

            很多学习器是为测试样本产生一个实值或概率预测,然后将这个预测值与一个分类阈值进行比较,若大于阈值分为正类,否则为反类,因此分类过程可以看作选取一个截断点。不同任务中,可以选择不同截断点,若更注重”查准率”,应选择排序中靠前位置进行截断,反之若注重”查全率”,则选择靠后位置截断。因此排序本身质量的好坏,可以直接导致学习器不同泛化性能好坏,ROC曲线则是从这个角度出发来研究学习器的工具。

            曲线的坐标分别为真正例率(TPR)和假正例率(FPR),定义如下

            TPR = \frac{TP}{TP+FN} FPR = \frac{FP}{TN+FP}

            

    ROC曲线

            因现实任务中通常利用有限个测试样例来绘制ROC图,因此应为无法产生光滑曲线。

            绘图过程很简单:给定m个正例子,n个反例子,根据学习器预测结果进行排序,先把分类阈值设为最大,使得所有例子均预测为反例,此时TPR和FPR均为0,在(0,0)处标记一个点,再将分类阈值依次设为每个样例的预测值,即依次将每个例子划分为正例。设前一个坐标为(x,y),若当前为真正例,对应标记点为(x,y+1/m),若当前为假正例,则标记点为(x+1/n,y),然后依次连接各点。

    (3)PR曲线

            以精确率为纵坐标,召回率为横坐标;可以画出PR曲线

    RP曲线

            如图,若一个学习器的P-R曲线被另一个学习器完全”包住”,则后者的性能优于前者。当存在交叉时,可以计算曲线围住面积,但比较麻烦,平衡点(查准率=查全率,BEP)是一种度量方式。

    相关文章

      网友评论

          本文标题:(3)TP、FP、F1、ROC、PR曲线

          本文链接:https://www.haomeiwen.com/subject/wtcpxqtx.html