统计,从总体(具有多种属性)中选取样本,根据样本去获得对总体的认识。
1.1 两大基本问题
1.1.1 预测
预测是根据输入值(X)来预测输出值(Y)
这类问题下,X是容易测的的,但是输出Y是不容易获得的,不关心的具体结构
1.1.2 推断
推断是研究的具体结构,即因变量Y与自变量与,,...的关系
1.2. 对的估计
1.2.1 参数方法
基于模型估计的两阶段方法。
- 假设具有某种分布
- 用训练数据集去拟合(fit)或者训练(train)模型,得到该分布下的参数值
优点: 计算简单
这种方法把估计的问题简化为对一组参数的估计。
缺点: 精确度低
选定的模型并非与真正的一致,当拟合效果差时,会通过增加参数(也即增加了模型的复杂度)以拟合,容易拟合了噪声(noise),导致过拟合(overfiting)。
适用-->推断
1.2.2 非参数方法
优点: 精确度高
不需要对的形式做明确的假设,即不限定的具体形式,于是可以在更大的范围上选择更适宜的估计.
缺点: 计算复杂
需要获取大量的观测点
1.3 指导学习与无指导学习
指导学习
对每一个预测变量观测值都有相应的响应变量的观测与之对应. 许多传统的统计学习方法都属于指导学习: 如线性回归, logistic回归, 广义可加模型(GAM),支持向量机(SVM)等.
无指导学习
只有预测变量观测值可以得到,但是相应的响应变量的观测不容易获得, 无法与之对应. 如:
聚类分析(cluster analysis)
1.4 回归与分类问题
通过研究响应变量(Y)的类型,可以指导我们选择相应的选择模型。
1.4.1 定性变量和定量变量
定性变量也称分类变量,如性别,品牌,肿瘤类型等。
定量变量呈现数值性,如年龄,身高等。
1.4.2 回归与分类
习惯上将响应变量()为定量的问题成为回归分析问题,为定性的变量称为分类问题。
2. 模型精度的评价
2.1 拟合效果检验
对于给定的观测,需要定量测量预测的Y与实际观测Y的接近程度。
2.1.1 MSE
均方误差(mean squared error, MSE)公式如下:
2.1.2 自由度
自由度(degree of freedom)是一个用来描述曲线光滑程度的量。限制性强且曲线平坦的模型比锯齿形曲线具有更小的自由度
- 自由度增加,即曲线变得更曲折的时候,模型在训练集里面的均方误差会下降。
2.1.3 训练集的MSE和测试集的MSE
- 根据训练集训练的参数,其MSE会比较小,但是却不能保证应用到测试集的时候也具有较小的MSE。
- 很多时候,测试的代价是很高的!比如火箭发射等。这种情况下,如何比较各个模型间的MSE和自由度就成了一个棘手的事情。
- 可以采用交叉验证(cross-validation)的方法。
2.2 偏差-方差权衡
2.2.1 期望测试MSE
期望测试均方误差可以分解为的方差、偏差的平方和、误差项.
CN | EN | Math |
---|---|---|
期望测试均方误差 | expected test MSE | |
平均测试均方误差 | average test MSE | 所有可能的期望测试MSE取平均 |
2.2.2 方差与偏差
- 方差(variance)代表用不同的训练数据集估计时,估计函数的改变量。光滑程度越高方差越大。
- 偏差(bias)指的是为了选择一个简单的模型逼近真实函数而被带入的误差。光滑程度越高偏差越小。
- =>光滑度高的模型,模型方差较大,偏差较小。但是var和bias的增减幅度并不一致,产生一个U型曲线,因此可以找到一个E最小模型
2.3 分类模型
- 训练错误率
- 测试错误率
网友评论