1.经验错误与过拟合
错误率error rate
如果m个样本有a个样本分类错误,则错误率为 精度(accuracy)为
误差:
样本的实际预测值与样本真实值之间的差异,成为误差
训练集上的误差为训练误差,测试集上的误差是泛化误差。
过拟合与欠拟合:
当学习器把训练样本学的“太好了"把训练样本潜在的一般性质都当作一些特征学习,这样会导致泛化性能下降,称为”过拟合。
2.评估方法
(1)留出法
多种划分方法将导致不同的训练集/测试集,所以一般采用若干次重复实验评估后取平均值作为评估结果。常见的做法是大约2/3-4/5的样本用于训练,剩余样本用于测试。
(2)交叉验证法
为减少因为样本划分不同而引入的差别,K折交叉验证需要随机使用不同的划分重复P次,最终的评价结果是这p次k折交叉验证的结果均值。
特例:若k=m,等于样本个数,则得到的交叉验证法一个特例,——留一法。
特点是:不受随机样本划分的影响;
缺点:数据集比较大时,训练m个模型的计算开销很大。
3.自主法
自主法适用于数据集小,难以有效划分训练/测试集时使用。
总结:留出法,交叉验证,自助法都会引入估计偏差,留一法不会,但计算量大。
3.性能度量
衡量模型泛化能力的评价指标
(1)错误率与精度
(2)查准率,查全率和F1
通常只在简单任务中,才使查全率和查准率都比较高!!!
[1] “平衡点(BEP)”时综合考虑查准率,查全率的性能度量。
[2] F1是查准率和查全率的调和平均。
[3] 可以表达出对查准率和查全率的不同偏重。
=1时退为标准的F
; 时查全率有很大影响,否则,是查准率。
进行多次训练/测试得到多个二分类混淆矩阵,判断全局性能:
宏观:
微观:
(3)ROC与AUC
ROC “受试者工作特征曲线”
TPR(真正例率):分类器预测的正例中,实际正例占所有正例的比例;又称为召回率(Recall),灵敏度(sensitivity)
TNR(负正例率):代表分类器预测的正例中,实际负例占所有的负例的比例;
TNR(真负例率):预测的负例中,实际负例占所有的负例的比率。又称特异度(specificity)
(4)代价敏感错误率与代价曲线
给预测错误加入相应的损失代价,对不同的任务设置不同的错误代价。
(5)偏差与方差
6.回归问题
拟合(回归)问题比较简单,所用到的衡量指标也相对直观。
[1]平均绝对值误差 Mean Absolute Error(MAE)
平均绝对误差(MAE)就是指预测值与真实值之间平均相差多大
公式: 其中,fi是预测值,yi是真实值,ei=|fi-yi|即是绝对误差。
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, y_pred)
[2]平均方差 Mean Square Error(MSE)
均方误差是指参数估计值与参数真值之差平方的期望值,记为MSE。MSE是衡量平均误差的一种较方便的方法,MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。均方误差的公式如下:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred)
[3]R平方值 R-Squared
它是表征回归方程在多大程度上解释了因变量的变化,或者说方程对观测值的拟合程度如何。

from sklearn.metrics import r2_score
r2_score(y_test, y_pred)
[4]Adjusted R-Squared 评估线性回归模型
R-squared(值范围0-1)描述的 输入变量对输出变量的解释程度。在单变量线性回归中R-squared 越大,说明拟合程度越好,R^2 越靠近1算法精确度越好。
然而只要曾加了更多的变量,无论增加的变量是否和输出变量存在关系,则R-squared 要么保持不变,要么增加。
需要adjusted R-squared ,它会对那些增加的且不会改善模型效果的变量增加一个惩罚向。
结论,如果单变量线性回归,则使用 R-squared评估,多变量,则使用adjusted R-squared。
在单变量线性回归中,R-squared和adjusted R-squared是一致的。
1- mean_squared_error(y_test, y_predict)/np.var(y_test) 此处np.var()a
[5]均方根误差(RMSE)
[6] F Statistics 是指在零假设成立的情况下,符合F分布的统计量,多用于计量统计学中。
网友评论