统计学习方法读书笔记（第一章）

作者: gibyeng | 来源:发表于2017-05-03 22:49 被阅读0次

监督学习

监督学习的特点：训练样例是带有标签的。也就是人们已经知道应该如何划分成几种特定的类型。对于训练数据，人们能预测出准确的结果。
而无监督学习相反，人们本身不知道划分的结果，完全根据数据自身的特点分类。

输入数据

每个输入数据是一个实例，由特征向量表示。

训练集

训练集由相应的输入与输出对确定。又称为样本、样本点。

问题分类

输入与输出都为连续的称为回归问题。
输出是有限个离散的预测问题是分类问题。
输入与输出变量均为变量序列的预测问题为标注问题

联合概率分布

监督学习假设输入变量X与输出变量Y遵循联合概率分布 P(X,Y).，训练数据与测试数据被看做依联合概率分布P(X,Y)独立同分布产生的。

假设空间

模型确定了输入变量与输出变量的映射关系。学习的目的就是在于找到最好的这样的模型。假设空间由输入空间到输出空间的映射的集合。

三要素

方法 = 模型 + 策略 +　算法

损失函数

又称代价函数，度量预测错误的程度。

经验风险最小化与结构风险最小化

用训练数据集的经验风险估计期望风险。
经验风险最小化（ERM）策略认为经验风险小的模型是最优模型。
而结构风险最小化（SRM）策略认为简单的结构比复杂结构更具有优势（防止过拟合），在ERM的基础上添加了惩罚项。模型越复杂，罚项就越大。

过拟合

随着模型复杂度的增加，训练误差不断减小，但是测试误差确是先减小后增大。因此在选择模型的时候需要选择复杂度适当的。

正则化与交叉验证

正则化是结构最小化的具体实现。
一般有如下格式：

捕获.PNG

交叉验证
通过训练集训练模型，在测试集上评价模型的好坏。选择测试误差最小的模型。

泛化误差

理论上衡量模型对未知数据的预测能力，是学习方法本质上重要的性质。
现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。

网友评论

本文标题：统计学习方法读书笔记（第一章）

本文链接：https://www.haomeiwen.com/subject/lknltxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！