统计学习方法
定义
如果一个系统能够通过执行某个过程改进它的性能, 这就是学习
对象
数据(data), 从数据出发, 提取数据的特征, 抽象出数据的模型, 发现数据中的知识, 最终回到对数据的分析与预测中去.
前提
具有某种共同性质的数据, 其具有一定的统计规律性
分类
监督学习, 非监督学习, 半监督学习, 强化学习
基本概念
输入空间: 输入所有可能的取值集合
输出空间: 输出所有可能的取值集合
特征空间: 每个具体的输入是一个实例, 通常由特征向量表示. 所有特征向量存在的空间
监督学习产生的最终模型可以是概率模型或非概率模型
概率模型由条件概率分布P(Y|X)表示
非概率模型由决策函数Y=f(X)表示
常用损失函数
- 0-1损失函数
- 平方损失函数
- 绝对损失函数
- 对数损失函数
对数损失函数用于概率模型中
损失函数值越小, 模型就越好. 模型输入输出(X,Y)都是随机变量, 遵循联合分布P(X,Y)
损失函数的期望:
或者
以上损失也称为期望损失, 记为
给定一个训练数据集, 模型f(X)关于训练数据集的平均损失称为经验损失, 记为
期望风险是模型关于联合分布的期望损失, 经验风险是模型关于训练样本集的平均损失.
当样本容量N趋于无穷时, 经验风险趋于期望风险.
监督学习的基本策略
经验风险最小化ERM
经验风险最小的模型就是最优模型, 经验风险最小化求最优模型就是求解最优化问题
当样本容量小时, 容易产生过拟合现象
结构风险最小化SRM
正则化. 在经验风险上加上表示模型复杂度的正则化项.
J(f)表示模型的复杂度, 模型f越复杂, J(f)就越大; f越简单, J(f)就越小. 复杂度表示了对复杂模型的惩罚. 是系数, 用以权衡经验风险和模型复杂度.
过拟合
当模型的复杂度增大时, 训练误差会逐渐减小并趋于0; 而测试误差会先减小, 达到最小值后又增大.
当选择的模型复杂度过大时, 过拟合现象就会发生.
正则化
正则化等价于结构风险最小化策略的实现, 在经验风险上加一个正则化项或罚项.
正则化项一般是模型复杂度的单调递增函数
交叉验证
- 简单交叉验证
随机的将数据分为两部分, 训练集和测试集. 用训练集在各种条件下训练模型, 在测试集上评估各个模型的测试误差
- S折交叉验证
随机的将数据集切分为S个互不相交的大小相同的子集, 其中的S-1个子集作为训练集, 余下的作为测试集; 将这一过程对可能的S种选择重复进行.
- 留一交叉验证
S折的特殊情况, 取S=N(数据集的容量)
网友评论