1.统计学习包括监督学习、非监督学习、半监督学习及强化学习,其一般步骤如下:
- 得到一个有限的训练集合;
- 确定包含学习模型集合;
- 确定学习策略;
- 确定学习算法;
- 选择最优模型;
- 利用学习出的最优模型对新数据进行预测和分析;
2.统计学习三要素:
- 模型
- 策略
- 算法
2.1模型
统计学习中首先要考虑的问题是学习什么样的模型,在监督学习过程中,模型基本可以理解为所要学习的条件概率分布或者决策函数。
2.2策略
有了模型,统计学习需要考虑的是按照什么样的准则选择最优的模型。这个过程可以理解成为使用一定的策略选择最优的模型。在选择的过程中一般会用到下面几种损失函数来评价模型的好坏:
- 0-1损失函数
- 平方损失函数
3.绝对损失函数
绝对损失函数4.对数损失函数
对数损失函数一般来说损失函数的值越小,模型就越好。我们通过损失函数来评价一个模型效果的好坏,然后选择最优的模型。
2.3算法
算法指的是学习模型的具体的计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后使用某种具体的算法,例如SGD,来求解最优模型。一般来说,通过策略中的损失函数会将统计学习问题转化为一个最优化问题,训练模型的过程也就转化为了求解最优解的过程。
3.过拟合
在模型选择中,我们希望选择或者学习一个合适的模型。如果存在着一个“真”模型,那么我们所选择的模型应该逼近“真”模型。但是我在根据训练数据对模型进行拟合的时候,如果一味追求提高对训练数据的预测能力,所选择模型的复杂度往往比“真”模型更高,这种现象称为过拟合。过拟合造成的结果就是模型对已知数据的预测能力很好但是对未知数据预测效果很差。我们在进行模型训练求解的过程中应该尽量避免过拟合的发生。
4.正则化
模型选择的一个经典方法是正则化。所谓的正则化,可以理解成为在损失函数的基础上加上一个正则化项或者说惩罚项。正则化项一般是模型复杂度(可以简单的理解成为模型参数的个数)的单调递增函数,模型越复杂,正则化值就越大。其一般形式如下:
正则化的一般形式其中,第1项是原有的损失函数项,第2项是正则化项,λ为调整二者之间关系的系数,一般为正数。正则化有很多不同的形式,常用的一般有L1和L2范数。
回归问题中的L2范数正则化 回归问题中的L1范数正则化5.交叉验证
交叉验证是另一种用来建立可靠的具有一定泛化能力的手段。一般来说交叉验证是将数据集随机的分为训练集、验证集合测试集,三者的比例一般为7:2:1。其中训练集用来训练模型,验证集用于模型的选择,测试集用于对最终学习方法的评估。一般来说我们选择一个在验证集上具有最小预测误差的模型作为最优模型。
常用的三种交叉验证方法:
- Holdout 验证
- K折交叉验证
- 留一交叉验证
这里面最常用的就是K折交叉验证。方法为:初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一评测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的。
网友评论