统计学习方法读书笔记——第一章统计学习方法概论

作者: Jarkata | 来源:发表于2021-02-04 02:07 被阅读0次

2018-11-25 统计学习方法-李航第一章
《统计学习方法概论》思维导图
《统计学习方法》读书笔记
《统计学习方法》读书笔记（一）
统计学习方法(一)——统计学习方法概论
从程序员的角度说统计学习方法概论
无标题文章
统计学习方法概论
统计学习方法概论
统计学习方法概论

本章概要

统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。
统计学习方法三要素——模型、策略、算法，对理解统计学习方法起到提纲挈领的作用。

3．本书主要讨论监督学习，监督学习可以概括如下：从给定有限的训练数据出发，假设数据是独立同分布的，而且假设模型属于某个假设空间，应用某一评价准则，从假设空间中选取一个最优的模型，使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。

4．统计学习中，进行模型选择或者说提高学习的泛化能力是一个重要问题。如果只考虑减少训练误差，就可能产生过拟合现象。模型选择的方法有正则化与交叉验证。学习方法泛化能力的分析是统计学习理论研究的重要课题。

5．分类问题、标注问题和回归问题都是监督学习的重要问题。本书中介绍的统计学习方法包括感知机、[Math Processing Error]近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场。这些方法是主要的分类、标注以及回归方法。它们又可以归类为生成方法与判别方法。

1.2 监督学习

1.2.1 基本概念

输入空间、特征空间与输出空间

特征空间(有时假设输入空间和特征空间相同)：

输入实例:

训练集表示:

根据输入、输出变量的不同类型，对预测任务给予不同的名称：回归问题、分类问题、标注问题...

联合概率分布

监督学习假设输入变量X和输出变量Y遵循联合概率分布P(X,Y)：
假设空间

1.3 统计学习三要素

方法=模型+策略+算法

1.3.1 模型

在监督学习的过程中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。

常用的损失函数

本书中称由决策函数表示的模型为非概率模型，由条件概率表示的模型为概率模型。

1.3.2 策略

有了模型的假设空间，统计学习接着需要考虑的是按照什么准则学习或选择最优的模型。
1. 损失函数和风险函数
用损失函数（代价函数）来度量预测错误的程度。

损失函数越小，模型就越好。损失函数的期望称为风险函数或期望损失。

风险函数

学习的目标就是选择期望风险最小的模型，而由于联合分布未知，因此期望损失不能直接计算，导致监督学习是一个病态问题。

经验风险（经验损失）：模型关于训练数据集的平均损失

经验风险
根据大数定律，当样本容量N趋于无穷时，经验风险

R_{emp}

趋于期望风险

R_{exp}

，因此很自然的想法是用经验风险估计期望风险。但由于训练样本有限，用经验风险估计往往不理想，需要对经验风险进行一定的矫正。

2. 经验风险最小化与结构风险最小化
经验风险最小化的策略认为：经验风险最小的模型是最优的模型。（极大似然估计MLE就是经验风险最小化的一个例子，当模型为条件概率分布，损失函数是对数损失函数时，经验最小化就等价于MLE）

但当样本容量很好使，会产生“过拟合overfitting”。由此诞生结构风险最小化(SRM)，结构风险最小化等价于正则化，在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。贝叶斯估计中的最大后验概率估计（MAP）就是SRM的一个例子。当模型为条件概率分布，损失函数时对数函数时，SRM和MAP等价。