美文网首页
统计学习方法读书笔记(第一章)

统计学习方法读书笔记(第一章)

作者: gibyeng | 来源:发表于2017-05-03 22:49 被阅读0次

    监督学习

    监督学习的特点:训练样例是带有标签的。也就是人们已经知道应该如何划分成几种特定的类型。对于训练数据,人们能预测出准确的结果。
    而无监督学习相反,人们本身不知道划分的结果,完全根据数据自身的特点分类。

    输入数据

    每个输入数据是一个实例,由特征向量表示。

    训练集

    训练集由相应的输入与输出对确定。又称为样本、样本点。

    问题分类

    输入与输出都为连续的称为回归问题。
    输出是有限个离散的预测问题是分类问题。
    输入与输出变量均为变量序列的预测问题为标注问题

    联合概率分布

    监督学习假设输入变量X与输出变量Y遵循联合概率分布 P(X,Y).,训练数据与测试数据被看做依联合概率分布P(X,Y)独立同分布产生的。

    假设空间

    模型确定了输入变量与输出变量的映射关系。学习的目的就是在于找到最好的这样的模型。假设空间由输入空间到输出空间的映射的集合。

    三要素

    方法 = 模型 + 策略 + 算法

    损失函数

    又称代价函数,度量预测错误的程度。

    经验风险最小化与结构风险最小化

    用训练数据集的经验风险估计期望风险。
    经验风险最小化(ERM)策略认为经验风险小的模型是最优模型。
    而结构风险最小化(SRM)策略认为简单的结构比复杂结构更具有优势(防止过拟合),在ERM的基础上添加了惩罚项。模型越复杂,罚项就越大。

    过拟合

    随着模型复杂度的增加,训练误差不断减小,但是测试误差确是先减小后增大。因此在选择模型的时候需要选择复杂度适当的。

    正则化与交叉验证

    正则化是结构最小化的具体实现。
    一般有如下格式:


    捕获.PNG

    交叉验证
    通过训练集训练模型,在测试集上评价模型的好坏。选择测试误差最小的模型。

    泛化误差

    理论上衡量模型对未知数据的预测能力,是学习方法本质上重要的性质。
    现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。

    相关文章

      网友评论

          本文标题:统计学习方法读书笔记(第一章)

          本文链接:https://www.haomeiwen.com/subject/lknltxtx.html