1. confusion matirx混淆矩阵
![](https://img.haomeiwen.com/i20882701/1f1ee9003f747091.png)
查准率(准确率):预测结果是正例的数据集中,实际正确的数量的比例
![](https://img.haomeiwen.com/i20882701/449c790c2ba1f9b3.png)
查全率(召回率):真实结果是正例的数据集中,被预测出是正确的数量的比例
![](https://img.haomeiwen.com/i20882701/ee173a7edeee81a9.png)
-
2. P—R反向关系原理
查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低
![](https://img.haomeiwen.com/i20882701/69b16a4155ff51d6.png)
例如:把门这个人严不严,这个人严的话,放过去的人就少,查准率也就高,但是能被放出来的人少了,因此查全率低;把门的人松的话,放过去的人特别多,鱼龙混杂,所以查准率也就低了,但是相应的查全率就高了
![](https://img.haomeiwen.com/i20882701/a59b3387707c68de.png)
![](https://img.haomeiwen.com/i20882701/ab38c828a931e1ac.png)
3. 性能度量
若一个学习器的P—R曲线被另一个学习器的曲线完全"包住",则可以断言后者的性能优于前者,但是若果两个曲线发生了交叉,该如何比较?
-
3.1 最优阈值的确定
如何比较A,B,C三种模型的好坏,首先可以确定B和A优于C,BA之间优于交叉无法确定
首先会想到比较AB面积的大小,在一定程度上表征了模型的优劣,但是这个值不容易估算,曲线的解析式不易求
-
方法一:使用平衡点(Break—Even Point,简成BEP),R=P时R与P的值
为什么在PR曲线里面查全率为1,查准率为0?查准率为1时,查全率为0?什么情况会出现查全为1查准为0?
书上为假设已经训练了一个二分类器,对m个待测样本进行了预测,按照书上对P—R曲线的定义,我们得先把待测样本进行排序,把二分类器越有可能为正类的放前面,越有可能为负类的放后面
![](https://img.haomeiwen.com/i20882701/145db07ed20f9181.png)
-
方法二:F1度量,F1是基于查准率与查全率的调和平均定义的,
![](https://img.haomeiwen.com/i20882701/5f41bcaa0bde5bdc.jpg)
-
方法三:Fβ(F1度量的一般形式),能让我们表达出对查准率与查全率的不同偏好,在一些应用中,对查准率与查全率的重视程度有所不同,例如在商品推荐系统中,尽可能地推用户感兴趣的,此时查准率更重要;而在逃犯检索系统中,尽可能少漏掉逃犯,查全率更重要
![](https://img.haomeiwen.com/i20882701/7c9f6732ba2bd36a.png)
![](https://img.haomeiwen.com/i20882701/71da786a19015a84.png)
-
4. n个二分类实现的多分类问题
4.1先分别计算,再求平均值
![](https://img.haomeiwen.com/i20882701/95c08ea27fdd136b.png)
![](https://img.haomeiwen.com/i20882701/1cb4c5239bc3cd52.png)
![](https://img.haomeiwen.com/i20882701/ecb9fe775447fe58.png)
![](https://img.haomeiwen.com/i20882701/4d0162a431891f6e.png)
4.2先平均再计算
![](https://img.haomeiwen.com/i20882701/82009776a03359be.png)
![](https://img.haomeiwen.com/i20882701/e2a5c5967c472627.png)
![](https://img.haomeiwen.com/i20882701/6f56be66393223ac.png)
![](https://img.haomeiwen.com/i20882701/04ba565803bac08b.png)
网友评论