1 统计学习

统计学习方法基于数据来说，主要分为监督学习，半监督学习，无监督学习，及强化学习。

实现统计学习方法步骤如下：

（1）得到一个有限的训练数据集合

（2）确定包含所有可能的模型的假设空间，即学习模型的集合

（3）确定模型选择的准则，即学习的策略

（4）实现求解最优模型的算法，即学习的算法

（5）通过学习方法选择最优模型

（6）利用学习的最优模型对新数据进行预测和分析

统计学习三要素：模型，策略，算法

（1）模型：在监督学习过程中，模型就是所要学习的条件概率分布或决策函数，模型的假设空间包含所有可能的条件概率分布或决策函数，如P(Y|X)或y=f(x)

（2）策略：按照什么样的准则学习，从假设空间中选取最优模型。损失函数可以度量模型一次预测的好坏，风险函数可以度量平均意义下模型预测的好坏。损失函数：输出的预测值f(x)与真实值Y之间的差异，记做L(Y,f(X)).常见损失函数有以下几种：

风险函数/期望损失：理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失

经验风险/经验损失：模型f(X)关于训练数据集的平均损失

经验风险最小化：

min(Remp)

结构风险最小化:

解决经验风险最小化产生的“过拟合”现象，在经验风险上加上表示模型复杂度的正则化项或者惩罚项

则结构风险最小化为：

min(Rsrm)

（3）算法：学习模型的具体计算方法，求解最优模型的方法

2 监督学习

监督学习从训练数据集合中学习模型，对测试数据进行预测，训练数据由输入与输出对组成。训练集通常可以表示为T={(x1,y1),(x2,y2),(x3,y3),...,(xn,yn)}.

下面主要介绍监督学习中的几个概念

（1）输入空间：监督学习中输入所有可能取值的集合

（2）特征空间：特征空间与输入空间可以在同一空间，也可以不在，特征空间的每一维度对应于一个特征

（3）输出空间：监督学习中输出所有可能取值的集合

（4）联合概率分布：统计学习假设数据存在一定的统计规律，X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设

（5）假设空间：模型属于由输入空间到输出空间的映射的集合

3 模型评估与模型选择

（1）泛化能力：学习方法对未知数据的预测能力

（2）过拟合：指学习时选择的模型所包含的参数过多，以致于出现这一模型对已知数据预测的很好，但对位置数据预测的很差的现象

（3）常用防止过拟合的模型选择方法：正则化与交叉验证

正则化：在经验风险上加一个正则化项或惩罚项，正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值越大，正则化项可以是模型参数向量的范数，正则化的作用是选择经验风险与模型复杂度同时较小的模型 交叉验证：随机地将数据集切分成三部分：训练集，验证集，测试集，包括三种验证方法：简单交叉验证，S折交叉验证，留一交叉验证。