1.1模型评估

作者: 南宫萧言 | 来源:发表于2019-04-09 21:15 被阅读0次

1.1模型评估
7.cross_validation_and_grid_sear
如何使用sklearn进行数据挖掘？
模型评估——模型评估方法
机器学习面试题集-图解准确率，精确率，召回率
一文深度解读模型评估方法
分类指标
西瓜书-模型评估与选择
Evaluation of Maching Learning
模型评估指标

1.经验错误与过拟合

错误率error rate

如果m个样本有a个样本分类错误，则错误率为 $E=a/m$ 精度（accuracy）为 $1-E$

误差：

样本的实际预测值与样本真实值之间的差异，成为误差

训练集上的误差为训练误差，测试集上的误差是泛化误差。

过拟合与欠拟合：

当学习器把训练样本学的“太好了"把训练样本潜在的一般性质都当作一些特征学习，这样会导致泛化性能下降，称为”过拟合。

2.评估方法

（1）留出法

多种划分方法将导致不同的训练集/测试集，所以一般采用若干次重复实验评估后取平均值作为评估结果。常见的做法是大约2/3-4/5的样本用于训练，剩余样本用于测试。

（2）交叉验证法

为减少因为样本划分不同而引入的差别，K折交叉验证需要随机使用不同的划分重复P次，最终的评价结果是这p次k折交叉验证的结果均值。

特例：若k=m，等于样本个数，则得到的交叉验证法一个特例，——留一法。

特点是：不受随机样本划分的影响；

缺点：数据集比较大时，训练m个模型的计算开销很大。

3.自主法

自主法适用于数据集小，难以有效划分训练/测试集时使用。

总结：留出法，交叉验证，自助法都会引入估计偏差，留一法不会，但计算量大。

3.性能度量

衡量模型泛化能力的评价指标

（1）错误率与精度

$acc（f,D）=\int_{}^{}{x~D} II(f(x)=y)p(x)dx=1-E(f,D)$

(2)查准率，查全率和F1

通常只在简单任务中，才使查全率和查准率都比较高！！！

[1] “平衡点（BEP）”时综合考虑查准率，查全率的性能度量。

[2] $F1=\frac{2*P*R}{P+R}$ F1是查准率和查全率的调和平均。

[3] $F_{\beta } =\frac{（1+\beta ^2）*P*R}{(\beta ^2*P)+R}$ 可以表达出对查准率和查全率的不同偏重。 $\beta$ =1时退为标准的F

； $\beta >1$ 时查全率有很大影响，否则，是查准率。

进行多次训练/测试得到多个二分类混淆矩阵，判断全局性能：

宏观：

微观：

（3）ROC与AUC

ROC “受试者工作特征曲线”

TPR（真正例率）：分类器预测的正例中，实际正例占所有正例的比例；又称为召回率（Recall），灵敏度（sensitivity）

TNR（负正例率）：代表分类器预测的正例中，实际负例占所有的负例的比例；

TNR（真负例率）：预测的负例中，实际负例占所有的负例的比率。又称特异度（specificity）

AUC为ROC曲线下面积，取值为0.1-1之间。

（4）代价敏感错误率与代价曲线

给预测错误加入相应的损失代价，对不同的任务设置不同的错误代价。

（5）偏差与方差

6.回归问题

拟合（回归）问题比较简单，所用到的衡量指标也相对直观。

[1]平均绝对值误差 Mean Absolute Error(MAE)

平均绝对误差（MAE）就是指预测值与真实值之间平均相差多大

公式： $MAE=\frac{1}{n}\sum_{n=1}^n|f_{i}-y_{i} |=\frac{1}{n}\sum_{i=1}^n|e_{i} |$ 其中，fi是预测值，yi是真实值，ei=|fi-yi|即是绝对误差。

from sklearn.metrics import mean_absolute_error

mean_absolute_error(y_test, y_pred)

[2]平均方差 Mean Square Error(MSE)

均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE。MSE是衡量平均误差的一种较方便的方法，MSE可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度。均方误差的公式如下： $MSE=\frac{1}{n}\sum_{t=1}^n(observed_{i}-predicted_{i})^2$

from sklearn.metrics import mean_squared_error

mean_squared_error(y_test, y_pred)

[3]R平方值 R-Squared

它是表征回归方程在多大程度上解释了因变量的变化，或者说方程对观测值的拟合程度如何。

from sklearn.metrics import r2_score

r2_score(y_test, y_pred)

[4]Adjusted R-Squared 评估线性回归模型

R-squared（值范围0-1）描述的输入变量对输出变量的解释程度。在单变量线性回归中R-squared 越大，说明拟合程度越好,R^2 越靠近1算法精确度越好。

然而只要曾加了更多的变量，无论增加的变量是否和输出变量存在关系，则R-squared 要么保持不变，要么增加。

需要adjusted R-squared ,它会对那些增加的且不会改善模型效果的变量增加一个惩罚向。

结论，如果单变量线性回归，则使用 R-squared评估，多变量，则使用adjusted R-squared。

在单变量线性回归中，R-squared和adjusted R-squared是一致的。

1- mean_squared_error(y_test, y_predict)/np.var(y_test) 此处np.var()a

[5]均方根误差（RMSE）

$RMSE=\sqrt{\frac{1}{m}\sum_{i=1}^m(y^i-\tilde{y} ^i )^2}$

[6] F Statistics 是指在零假设成立的情况下，符合F分布的统计量，多用于计量统计学中。

方差，协方差，样本协方差

1.1模型评估
1.经验错误与过拟合错误率error rate 如果m个样本有a个样本分类错误，则错误率为精度（accurac...
7.cross_validation_and_grid_sear
1.模型的评估与参数调优 1.1交叉验证/Cross - validation 1.1.1 K折交叉验证 1.1....
如何使用sklearn进行数据挖掘？
1.1 数据挖掘的步骤数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤。使用sklear...
模型评估——模型评估方法
Holdout检验：是最简单直接的检验方法，它将原始样本数据集随机划分成训练集和测试集。缺点就是不能保证训练集...
机器学习面试题集-图解准确率，精确率，召回率
今天进入第二章：模型评估 1. 什么是模型评估模型训练后要对其进行评估，看模型表现如何，哪里可以改进分类、排序...
一文深度解读模型评估方法
本文将总结机器学习最常见的模型评估指标。训练学习好的模型，通过客观地评估模型性能，才能更好实际运用决策。模型评估主...
分类指标
评估结果用于反应模型的好坏，必须设计合适的评估指标来测量该模型的好坏。模型的好坏是相对的，使用不同的评估指标对模型...
西瓜书-模型评估与选择
模型评估与选择西瓜书第一章，模型评估与选择.
Evaluation of Maching Learning
模型的评估分线上评估与线下评估，如何来对模型进行线上评估与线下评估呢？它们之间又有什么关系首先怎么区别它们：首...
模型评估指标
评估指标用于反映模型效果。在预测问题中，要评估模型的效果，就需要将模型预测结果f(X)和真实标注Y进行比较，评估指...