-
监督学习与无监督学习
- 根据训练数据是否拥有标记信息,学习任务可大致分为两大类:“监督学习”和“无监督学习”,分类和回归是前者的代表,聚类是后者的代表。--《机器学习(西瓜书)》
- 关于监督学习,李航《统计学习方法》是这样描述的:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
-
泛化能力
- 泛化能力是指由学习方法学习到的模型对未知数据的预测能力。--李航《统计学习方法》
-
过拟合、欠拟合
- 学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当做了所有潜在样本都具有的一般性质,这样就会导致泛化能力下降,这种现象在机器学习中称为“过拟合”;欠拟合则是指对训练样本的一般性质尚未学好。 --《机器学习(西瓜书)》
-
关于过拟合,李航《统计学习方法》是这样描述的:如果一味的追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,这种现象称为过拟合。过拟合是指学习时所选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测得很好,但对位置数据预测得很差的现象。
过拟合图示
-
偏差、方差以及噪声
- 偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;
- 方差度量同样大小的数据集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;
- 噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。
-
交叉验证
- 如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切成三部分,分别为训练集、验证集和测试集。训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。在学习到的不同复杂模型中,选择对验证集有最小预测误差的模型。由于验证集有足够多的数据,用它对模型进行选择也是有效的。
- 然而实际应用中数据是不充足的,为了更好地选择模型,可以采用交叉验证方法。交叉验证的基本想法是重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
- 三种交叉验证方法
- 简单的交叉验证
- S折交叉验证
- 留一交叉验证
网友评论