首先要明确,ROC Curve 是对应 二分类问题的, 二分类问题是日常生活中遇到最多的分类问题。 往往就是 “是”, “非” 问题。 比如, 检测是否为阳性, 是否符合标准等等。
ROC Curve 涉及到的二分类问题的指标, 可以查看 一图读懂Recall, Precision, Accuracy, F Score 。
ROC Curve
Receiver operating characteristic
图中黄色, 和绿色的曲线就是ROC Curve, 它反映一个模型如果要取得一定 True Positive Rate 的情况下,要付出 False Positive 的代价。 如果付出的代价越小, 那么这个模型就越好。 通俗的说, 因为模型没有完美的, 所以大多数情况下,就要面临 “为了不放过1个, 就要错抓3000” 的问题。 当然错抓的越少越好, 但是错抓的少, 就意味着标准放松, 那么同时意味着可能会漏抓。 ROC Curve 就是反应了在某个模型下, 错抓和漏抓的关系。
AUC
ROC Curve 下面包含的面积(取值 0-1)
如何比较好坏
比较2个 ROC Curve
对应 AUC 越大越好
No Skill line
图中蓝色的对角线, 那个是瞎猜的水平, 对应 AUC 是 0.5。 因为 ROC 对应的 二分类问题, 所以瞎猜也有一半中奖的概率。
网友评论