机器学习性能评估指标汇总

作者: Kevin_bin | 来源:发表于2016-12-22 15:40 被阅读2622次

机器学习性能评估指标汇总
3.machine_learning_eval_metric
一文深度解读模型评估方法
机器学习性能评估指标
机器学习中常用评估指标汇总
常用的机器学习模型评估指标
机器学习——评估指标
Spark机器学习笔记
机器学习概述与算法介绍(二)
模型性能评估

跑完分类模型（Logistic回归、决策树、神经网络等），我们经常面对一大堆模型评估的报表和指标,如ACC、ROC、AUC等，对以上提到的各个评估指标逐一点评，并力图表明：

指标分类

学习分类	性能指标
分类	Accuracy、precision、Recall、F1 Score、ROC Curve、PR Curve、AUC、
回归	MAE、MSE

分类

混淆矩阵

1代表正类，0代表负类，Predicted代表预测，Actual代表实际。

		Predicted	Predicted	合计
		<u>1</u>	<u>0</u>
Actual	<u>1</u>	D: (TP) -> 2814	C: (FN) -> 36	D+C: Actual Positive
Actual	<u>0</u>	B: (FP) -> 235	A: (TN) -> 248	A+B: Actual Negative
合计		B+D: Predicted Positive	A+C: Predicted Negative

A: (True Negative) 将负类预测为负类数（正确预测负例），(TN | 真负,0->0)

B: (False Positive) 将负类预测为正类数，(FP | 假正, 0->1) → 误报

C: (False Negative) 将正类预测为负类数，(FN | 假负, 1->0) → 漏报

D: (True Positive) 将正类预测为正类数（正确预测正例），(TP | 真正, 1->1)

A+B: (Actual Negative) 实际上负例的数量

C+D: (Actual Positive) 实际上正例的数量

A+C: (Predicted Negative) 预测的负例数量

B+D: (Predicted Positive) 预测的正例数量

实际的数据中，客户有两种可能good AND bad，其模型预测同样有两种可能，预测结果可能与实际数据匹配或不匹配。如果匹配则出现两种可能，第一种True Positive(1->1)：实际是Positive,预测成Positive，第二种True Negative(0->0)：实际是Negative，预测成Negative；如果不匹配（犯错）则出现两种可能，第一种False Negative(1->0)：实际是Positive，预测成Negative,第二种False Positive(0->1)：实际是Negative，预测成Positive。

准确(分类)率 VS. 误分类率:

准确(分类)率(accuracy) = 正确预测的正反例数 / 总数

ACC = (TP+TN) / (TP+TN+FP+FN)
= (A+D) / (A+B+C+D)

误分类率 = 错误预测的正反例数 / 总数

误分类率 = (FP+FN) / (TP+TN+FP+FN) = 1 - ACC
= (B+C) / (A+B+C+D)

召回率 VS.精确率 → F1 Score

召回率(Recall) = 正确预测到的正例数 / 实际正例总数

Recall (True Positive Rate or Sensitivity) = TP / (TP+FN)
= D / (C+D)

精确率(Precision) = 正确预测到的正例数 / 预测正例总数

Precision (Positive Predicted Value,PV+) = TP / (TP+FP)
= D /(B+D)

F1 Score

F1 Score为精准率和召回率的调和均值

2 / F1 = 1 / P + 1 / R
F1 Score = 2TP / (2TP + FP + FN)
准确率(accuracy)和精确率(precision)都高的情况下，F1 Score也会显得很高。

精确率是针对预测结果而言的，表示的是预测为正的样本中有多少是真正的正样本，预测为正就有两种可能，一种是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，即 P = TP / (TP+FP)

召回率是针对原来样本而言的,表示的是样本中的正例有多少被预测正确,同样也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)，即 R = TP / (TP+FN)

精确率：预测正例与预测结果的比值，召回率：预测正例与实际样本正例的比值。

ROC 曲线

维基百科定义

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

逻辑回归里面，对于正负例的界定，通常会设一个阈值，大于阈值的为正类，小于阈值为负类。如果我们减小这个阀值，更多的样本会被识别为正类。提高正类的识别率，但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象，此处引入ROC，ROC曲线可以用于评价一个分类器好坏。

ROC关注两个指标：