美文网首页
1.1模型评估

1.1模型评估

作者: 南宫萧言 | 来源:发表于2019-04-09 21:15 被阅读0次

1.经验错误与过拟合

错误率error rate

如果m个样本有a个样本分类错误,则错误率为E=a/m 精度(accuracy)为1-E

误差:

样本的实际预测值与样本真实值之间的差异,成为误差

训练集上的误差为训练误差,测试集上的误差是泛化误差。

过拟合与欠拟合:

当学习器把训练样本学的“太好了"把训练样本潜在的一般性质都当作一些特征学习,这样会导致泛化性能下降,称为”过拟合。

2.评估方法

(1)留出法

多种划分方法将导致不同的训练集/测试集,所以一般采用若干次重复实验评估后取平均值作为评估结果。常见的做法是大约2/3-4/5的样本用于训练,剩余样本用于测试。

(2)交叉验证法

为减少因为样本划分不同而引入的差别,K折交叉验证需要随机使用不同的划分重复P次,最终的评价结果是这p次k折交叉验证的结果均值。

特例:若k=m,等于样本个数,则得到的交叉验证法一个特例,——留一法。

特点是:不受随机样本划分的影响;

缺点:数据集比较大时,训练m个模型的计算开销很大。

3.自主法

自主法适用于数据集小,难以有效划分训练/测试集时使用。

总结:留出法,交叉验证,自助法都会引入估计偏差,留一法不会,但计算量大。

3.性能度量

衡量模型泛化能力的评价指标

(1)错误率与精度

acc(f,D)=\int_{}^{}{x~D} II(f(x)=y)p(x)dx=1-E(f,D)

(2)查准率,查全率和F1

通常只在简单任务中,才使查全率和查准率都比较高!!!

[1] “平衡点(BEP)”时综合考虑查准率,查全率的性能度量。

[2]F1=\frac{2*P*R}{P+R}   F1是查准率和查全率的调和平均。

[3]F_{\beta } =\frac{(1+\beta ^2)*P*R}{(\beta ^2*P)+R} 可以表达出对查准率和查全率的不同偏重。\beta =1时退为标准的F

\beta >1 时查全率有很大影响,否则,是查准率。

进行多次训练/测试得到多个二分类混淆矩阵,判断全局性能:

宏观:

微观:

(3)ROC与AUC

ROC “受试者工作特征曲线”

TPR(真正例率):分类器预测的正例中,实际正例占所有正例的比例;又称为召回率(Recall),灵敏度(sensitivity)

TNR(负正例率):代表分类器预测的正例中,实际负例占所有的负例的比例;

TNR(真负例率):预测的负例中,实际负例占所有的负例的比率。又称特异度(specificity)

AUC为ROC曲线下面积,取值为0.1-1之间。

(4)代价敏感错误率与代价曲线

给预测错误加入相应的损失代价,对不同的任务设置不同的错误代价。

(5)偏差与方差

6.回归问题

拟合(回归)问题比较简单,所用到的衡量指标也相对直观。

[1]平均绝对值误差   Mean Absolute Error(MAE)

平均绝对误差(MAE)就是指预测值与真实值之间平均相差多大

公式:MAE=\frac{1}{n}\sum_{n=1}^n|f_{i}-y_{i}  |=\frac{1}{n}\sum_{i=1}^n|e_{i} |     其中,fi是预测值,yi是真实值,ei=|fi-yi|即是绝对误差。

from sklearn.metrics import mean_absolute_error

mean_absolute_error(y_test, y_pred)

[2]平均方差 Mean Square Error(MSE)

均方误差是指参数估计值与参数真值之差平方的期望值,记为MSE。MSE是衡量平均误差的一种较方便的方法,MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。均方误差的公式如下:MSE=\frac{1}{n}\sum_{t=1}^n(observed_{i}-predicted_{i})^2

from sklearn.metrics import mean_squared_error

mean_squared_error(y_test, y_pred)

[3]R平方值  R-Squared

它是表征回归方程在多大程度上解释了因变量的变化,或者说方程对观测值的拟合程度如何。

from sklearn.metrics import r2_score

r2_score(y_test, y_pred)

[4]Adjusted R-Squared 评估线性回归模型

R-squared(值范围0-1)描述的 输入变量对输出变量的解释程度。在单变量线性回归中R-squared 越大,说明拟合程度越好,R^2 越靠近1算法精确度越好。

然而只要曾加了更多的变量,无论增加的变量是否和输出变量存在关系,则R-squared 要么保持不变,要么增加。

需要adjusted R-squared ,它会对那些增加的且不会改善模型效果的变量增加一个惩罚向。

结论,如果单变量线性回归,则使用 R-squared评估,多变量,则使用adjusted R-squared。

在单变量线性回归中,R-squared和adjusted R-squared是一致的。

1- mean_squared_error(y_test, y_predict)/np.var(y_test)   此处np.var()a 

[5]均方根误差(RMSE)

RMSE=\sqrt{\frac{1}{m}\sum_{i=1}^m(y^i-\tilde{y} ^i  )^2}

[6] F Statistics 是指在零假设成立的情况下,符合F分布的统计量,多用于计量统计学中。

方差,协方差,样本协方差

相关文章

  • 1.1模型评估

    1.经验错误与过拟合 错误率error rate 如果m个样本有a个样本分类错误,则错误率为 精度(accurac...

  • 7.cross_validation_and_grid_sear

    1.模型的评估与参数调优 1.1交叉验证/Cross - validation 1.1.1 K折交叉验证 1.1....

  • 如何使用sklearn进行数据挖掘?

    1.1 数据挖掘的步骤  数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklear...

  • 模型评估——模型评估方法

    Holdout检验 :是最简单直接的检验方法,它将原始样本数据集随机划分成训练集和测试集。 缺点就是不能保证训练集...

  • 机器学习面试题集-图解准确率,精确率,召回率

    今天进入第二章:模型评估 1. 什么是模型评估 模型训练后要对其进行评估,看模型表现如何,哪里可以改进 分类、排序...

  • 一文深度解读模型评估方法

    本文将总结机器学习最常见的模型评估指标。训练学习好的模型,通过客观地评估模型性能,才能更好实际运用决策。模型评估主...

  • 分类指标

    评估结果用于反应模型的好坏,必须设计合适的评估指标来测量该模型的好坏。模型的好坏是相对的,使用不同的评估指标对模型...

  • 西瓜书-模型评估与选择

    模型评估与选择 西瓜书第一章,模型评估与选择.

  • Evaluation of Maching Learning

    模型的评估分线上评估与线下评估,如何来对模型进行线上评估与线下评估呢?它们之间又有什么关系 首先怎么区别它们: 首...

  • 模型评估指标

    评估指标用于反映模型效果。在预测问题中,要评估模型的效果,就需要将模型预测结果f(X)和真实标注Y进行比较,评估指...

网友评论

      本文标题:1.1模型评估

      本文链接:https://www.haomeiwen.com/subject/ktsiiqtx.html