1.3 统计学习三要素
方法=模型+策略+算法
- 模型
- 策略
- 算法
模型
所要学习的条件概率分布或决策函数
策略
损失函数和风险函数
-0-1损失函数
-平方损失函数 (Y-f(x))^2
-绝对损失函数 |Y-f(x)|
-对数损失函数 -logP(Y|X)
经验风险最小化和结构风险最小化
经验风险最小化(empirical risk minimization,ERM),样本足够大时有很好的学习效果
例如,极大似然估计,模型是条件概率分布,损失函数是对数损失函数时等价于极大似然估计
结构风险最小化(structural risk minimization,SRM)防止过拟合提出的策略,等价于正则化(regularization),例如贝叶斯估计中的最大后验概率估计
算法
统计学习问题归结为最优化问题,如何保障寻找到全局最优解?
1.4 模型评估
training error本质上不重要,test error反映学习方法对未知的测试数据集的预测能力
1.5 正则化与交叉验证
正则化复合奥卡姆剃刀原理
-简单交叉验证 70% training set, 30% test set
-S折交叉验证 S-fold cross validation
-留一交叉验证 leave-one-out
1.6 泛化能力
泛化误差上界是假设空间容量的函数,假设空间容量越大,模型就越难学
image.png
1.7 生成模型与判别模型
监督学习方法分为生成方法和判别方法
生成方法给定输入X产生输出Y的生成关系,朴素贝叶斯和隐马尔科夫模型,求P(Y|X);还原出联合概率分布,收敛速度更快,同时存在隐变量时,仍可以用生成方法学习,而判别方法不行
判别方法由数据直接学习决策函数,关心的是对给定的X,应该输入做怎样的Y;学习准确率更高,可以对数据进行各种程度上的抽象,定义特征并使用特征,可以简化学习问题。
1.8 分类问题
accuracy
二分类的评价指标,精确率(precision)和召回率(recall)
TP-将正类预测为正类数
FN-将正类预测为负类数
FP-将负类预测为正类数
TN-将负类预测为负类数
precision P = TP / (TP+FP)
recall R = TP / (TP+FN)
F1为precision和recall的调和均值,鸡
F1 = 2TP / (2TP+FP+FN)
1.9 标注问题
标注问题是分类问题的一个推广,也是更复杂的结构预测问题的简单形式,即对一个观测序列找到使条件概率最大的标记序列。
分为学习和标注两个过程,常用的统计学习方法有:隐马尔科夫,条件随机场
1.10 回归问题
表示输入变量到输出变量之间的映射
网友评论