机器学习中需要使用模型,优化,评价,其中评价指标也是用来优化的一环,这里总结一下常用的评估指标,主要分为分类和回归,其中分类指的是二分类,多分类可在此基础上拓展。
分类问题
对于一个二分类问题来说,实例会被分为正例和负例,则根据预测的正确与否会分为四种情况。
- TP(True Positive):实际是正类,预测为正类。
- FN(False Negative):实际是正类,预测为负类(漏)。
- FP(False Positive):实际为负类,预测为正类(误)。
- TN(True Negative):实际为负类,预测为负类。
二元混淆矩阵便是用表格的形式表示以上四种情况,能方便的比较预测的正误数。
准确率(accuracy)指正确预测的样本数/总数,公式表示为Accuracy = (TP+TN)/(TP+FN+FP+TN)。
精确率(Precision)也叫查准率,只是针对预测正确的正样本而不是所有预测正确的样本。即正确预测的正例数 /预测正例总数,公式表示为Precision = TP/(TP+FP)。
召回率(Recall)也叫查全率,表现在实际正样本中,分类器能预测出多少,即正确预测的正例数 /实际正例总数,公式表示为Recall = TP/(TP+FN)。
F1Score是precision和recall的调和平均值,更接近于两者中较小的那个。公式表示为2/F1 = 1/Precision + 1/Recall。不过更一般的用法是加权调和平均,即对于precision和recall分别取不同的权值。
真正率(True Positive Rate,TPR):TPR=TP/(TP+FN),即被预测为正的正样本数 /正样本实际数。
假正率(False Positive Rate,FPR):FPR=FP/(FP+TN),即被预测为正的负样本数 /负样本实际数。
假负率(False Negative Rate,FNR) :FNR=FN/(TP+FN),即被预测为负的正样本数 /正样本实际数。
真负率(True Negative Rate,TNR):TNR=TN/(TN+FP),即被预测为负的负样本数 /负样本实际数。
PR曲线的横坐标是精确率P,纵坐标是召回率R。显然精确率和召回率都是越大越好,即在上方的曲线比下方的曲线好。当精确率和召回率接近时F1Score最大,因此也可以直接找F1score的最大点(只需要画直线y=x)。
ROC(Receiver Operating Characteristic)曲线在对于正负例的判断中,我们会设置一个阈值,当大于这个阈值则为正例,小于这个阈值则为负例,根据不同的阈值,采用横坐标为False Positive Rate(FPR假正率),纵坐标为True Positive Rate(TPR真正率),便可做出ROC曲线。对角线对应的是随机猜测的表现,一般曲线越接近左上角,则分类器的性能越好。
AUC(Area Under Curve)为ROC曲线所覆盖的区域面积,显然,AUC越大,分类器分类效果越好。当AUC=0.5,则表示为随机猜测,没有预测价值,当AUC>0.5优于随机猜测,当AUC<0.5比随机猜测还差,但只要反预测便可优于随即猜测。AUC曲线的物理意义为,任取一对(正、负)样本,正样本的置信度大于负样本的置信度的概率。
代价敏感指的是不同的错误具有不同的权重,即将正例预测为负例的后果与将负例预测为正例的后果不一致。如在体检时,将生病的情况预测为健康的危害大于将健康的情况预测为生病,体检的时候如果把正确率直接设置为100%,则与实际情况很接近,但这并不是我们想要的,我们需要的是找出其中的病人,因此需要将这两种情况赋予不同的权重。
回归问题
回归问题的评价指标通常有MSE,MAE,RMSE,R-Squared。
MSE(均方误差),就是线性回归的损失函数,也就是最小二乘法的目标函数,容易理解。
RMSE(均方根误差),顾名思义,这就是MSE开方根,实质也一样,不过对于很大的数据可以较好的比较。
MAE(平方绝对误差),作用类似于MSE,只要想到最小二乘法就好了。
R-Squared(决定系数),值为0-1之间,越接近1,则表示对数据拟合得越好。
总平方和为
回归平方和
image.png
残差平方和
image.png
根据以上定义,决定系数可定义为
image.png
在这里总结了分类和回归的几个常用指标,但是实际的使用要根据实际情况来改变指标的使用,要重新创造或者略微修改。关于聚类评估指标的总结下回再写。
欢迎大家关注公众号“计算机视觉与机器学习”
计算机视觉和机器学习
网友评论