美文网首页
机器学习|支持向量机识别系统的性能度量

机器学习|支持向量机识别系统的性能度量

作者: jiarf | 来源:发表于2021-07-02 08:56 被阅读0次

    总结

    总结内容
    ————————————————————————————————————————————————
    这些都是比识别率更客观的评价标准,
    ~混淆矩阵中通过计算系统识别率和瞎猜的概率,如果识别率大于瞎猜的概率就是性能比较好,
    ~roc曲线(TP\FP,FN\FP)越在左上角,性能越好
    ~AUC阴影面积越大,性能越好
    ~EER越小,性能越好
    想知道具体情况,看下面本节课的内容~
    ————————————————————————————————————————————————

    上一讲中的识别率为99.61%,比如人脸识别的准确率达到99.8%,他是不是一个性能好的系统?

    image.png

    冒用身份的人只有不到百分之一,
    也就是我们什么都不做,这个识别率也是大于99%的,

    进一步假设,冒用身份证的人是千分之一,那么瞎猜的概率是99.9%,问题就是如果我们不知道根据数据类别的先验分布,是没有意义的, image.png
    image.png
    image.png
    仍然以二分类为例,竖着实际,横着预测值,识别结果TP和TN是正确的,两种错误的情况FN,FP,这四个数构成的矩阵是混淆矩阵 image.png
    image.png
    image.png
    image.png
    image.png
    这里全猜为负样本是因为,负样本的更多 image.png
    image.png
    image.png
    在概率下的混淆矩阵,一定满足 image.png
    以上两个为条件,探索评价系统性能的另一个重要的指标
    image.png
    image.png
    image.png
    改革开放来了,新鲜空气会进入,但是更多的苍蝇蚊子也会增加, image.png
    具体到支持向量机这个系统,如何理解TP增加,FP也增加! 回顾 image.png
    image.png
    得到另一个系统,这个系统想比前面的那个系统 image.png
    答案

    更多的测试样本满足第一个系统,所以会有更多的正样本被判断为正样本的比例增加,更多的负样本判断为-样本的比例增加了,


    image.png
    比阈值是0的时候同时减少
    image.png

    系统性能更好就是更大的TP,更小的FP,要换方法,从算法本身入手,设计更好的算法,为此引入ROC曲线


    由上可知
    ROC曲线定义一 roc曲线定义2
    两者是一样的,因为 image.png

    所以知道了一个就知道了另一个


    image.png
    算法核心
    image.png
    image.png

    因此根据ROC可以判断系统性能的另外两个指标


    指阴影部分的面积
    越大,系统性能越好,
    image.png
    在那条线上FP和FN是相等的(不明白的看roc曲线定义2
    越低性能越好

    相关文章

      网友评论

          本文标题:机器学习|支持向量机识别系统的性能度量

          本文链接:https://www.haomeiwen.com/subject/mmkeultx.html