基于目前我的学习,给出我所认为比较重要的点吧,不喜勿喷
1 统计学习
统计学习方法基于数据来说,主要分为监督学习,半监督学习,无监督学习,及强化学习。
实现统计学习方法步骤如下:
(1)得到一个有限的训练数据集合
(2)确定包含所有可能的模型的假设空间,即学习模型的集合
(3)确定模型选择的准则,即学习的策略
(4)实现求解最优模型的算法,即学习的算法
(5)通过学习方法选择最优模型
(6)利用学习的最优模型对新数据进行预测和分析
统计学习三要素:模型,策略,算法
(1)模型:在监督学习过程中,模型就是所要学习的条件概率分布或决策函数,模型的假设空间包含所有可能的条件概率分布或决策函数,如P(Y|X)或y=f(x)
(2)策略:按照什么样的准则学习,从假设空间中选取最优模型。损失函数可以度量模型一次预测的好坏,风险函数可以度量平均意义下模型预测的好坏。损失函数:输出的预测值f(x)与真实值Y之间的差异,记做L(Y,f(X)).常见损失函数有以下几种:
风险函数/期望损失:理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失
经验风险/经验损失:模型f(X)关于训练数据集的平均损失
经验风险最小化:
min(Remp)
结构风险最小化:
解决经验风险最小化产生的“过拟合”现象,在经验风险上加上表示模型复杂度的正则化项或者惩罚项
则结构风险最小化为:
min(Rsrm)
(3)算法:学习模型的具体计算方法,求解最优模型的方法
2 监督学习
监督学习从训练数据集合中学习模型,对测试数据进行预测,训练数据由输入与输出对组成。训练集通常可以表示为T={(x1,y1),(x2,y2),(x3,y3),...,(xn,yn)}.
下面主要介绍监督学习中的几个概念
(1)输入空间:监督学习中输入所有可能取值的集合
(2)特征空间:特征空间与输入空间可以在同一空间,也可以不在,特征空间的每一维度对应于一个特征
(3)输出空间:监督学习中输出所有可能取值的集合
(4)联合概率分布:统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设
(5)假设空间:模型属于由输入空间到输出空间的映射的集合
3 模型评估与模型选择
(1)泛化能力:学习方法对未知数据的预测能力
(2)过拟合:指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测的很好,但对位置数据预测的很差的现象
(3)常用防止过拟合的模型选择方法:正则化与交叉验证
正则化:在经验风险上加一个正则化项或惩罚项,正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大,正则化项可以是模型参数向量的范数,正则化的作用是选择经验风险与模型复杂度同时较小的模型 交叉验证:随机地将数据集切分成三部分:训练集,验证集,测试集,包括三种验证方法:简单交叉验证,S折交叉验证,留一交叉验证。
网友评论