总结
————————————————————————————————————————————————
这些都是比识别率更客观的评价标准,
~混淆矩阵中通过计算系统识别率和瞎猜的概率,如果识别率大于瞎猜的概率就是性能比较好,
~roc曲线(TP\FP,FN\FP)越在左上角,性能越好
~AUC阴影面积越大,性能越好
~EER越小,性能越好
想知道具体情况,看下面本节课的内容~
————————————————————————————————————————————————
上一讲中的识别率为99.61%,比如人脸识别的准确率达到99.8%,他是不是一个性能好的系统?
image.png冒用身份的人只有不到百分之一,
也就是我们什么都不做,这个识别率也是大于99%的,
image.png
image.png
仍然以二分类为例,竖着实际,横着预测值,识别结果TP和TN是正确的,两种错误的情况FN,FP,这四个数构成的矩阵是混淆矩阵 image.png
image.png
image.png
image.png
image.png
这里全猜为负样本是因为,负样本的更多 image.png
image.png
image.png
在概率下的混淆矩阵,一定满足 image.png
以上两个为条件,探索评价系统性能的另一个重要的指标
image.png
image.png
image.png
改革开放来了,新鲜空气会进入,但是更多的苍蝇蚊子也会增加, image.png
具体到支持向量机这个系统,如何理解TP增加,FP也增加! 回顾 image.png
image.png
得到另一个系统,这个系统想比前面的那个系统 image.png
答案
更多的测试样本满足第一个系统,所以会有更多的正样本被判断为正样本的比例增加,更多的负样本判断为-样本的比例增加了,
image.png
比阈值是0的时候同时减少
image.png
系统性能更好就是更大的TP,更小的FP,要换方法,从算法本身入手,设计更好的算法,为此引入ROC曲线
由上可知
ROC曲线定义一 roc曲线定义2
两者是一样的,因为 image.png
所以知道了一个就知道了另一个
image.png
算法核心
image.png
image.png
因此根据ROC可以判断系统性能的另外两个指标
指阴影部分的面积
越大,系统性能越好,
image.png
在那条线上FP和FN是相等的(不明白的看roc曲线定义2
越低性能越好
网友评论