01 还不够
前段时间把Python的Pandas、Numpy、matplotlib、seaborn包拿来反复练习了一番,对于数据的观察、处理、清洗以及可视化有了一定的认识。
随着练习的深入,一个问题在我心中逐渐形成:
一份数据的价值,通过清洗、多维度可视化就完全可以被展现出来了么?
还不够,还远远不够!
于是我开始感受到知识储备的匮乏了。
还好前面有老司机带路,于是我琢磨着从理论基础入手,结合实操快速提升数据挖掘能力。
接下来的两到三个月,我会集中精力攻破李航的《统计学习方法》,本书共11章,计划1周1-2章(视章节情况而定),其中对于数据挖掘有帮助的知识,我会分享出来,与大家共勉~~
02 三要素
不要被“统计学习”的名字误导,它不只是统计学,它的全名是“统计机器学习”,是计算机系统通过运用数据及统计方法提高系统性能的机器学习。
统计学习三要素:
- 模型-在监督学习过程中,模型就是所要学习的条件概率分布P(Y|X)或决策函数y=f(X),是一个假设空间
- 策略-从假设空间中选取最优模型的过程,是将损失函数(期望风险、经验风险)最小化的策略
- 算法-学习模型的具体计算方法,是求解最优化问题的算法
确定了模型、策略、算法三要素,统计学习方法也就确定了,后面的所有章节,其实都是在探究具体问题的三要素。
03 模型的评估和选择
选择模型,就是在选择假设空间,选择假设空间,就是在选择输入变量个数以及与输出变量可能的关系模型集合。
过拟合
我们选择的输入变量越多,那么对于已知数据的预测结果可能越准确,但是对于未知数据预测的准确性却会随着输入变量个数的增加而呈先增加后减少的结果,这就是过拟合
学习时选择的模型所包含的参数太多,以至于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
模型选择
为了防止过拟合,模型选择时,不仅要考虑对已知数据的预测能力,还要考虑对未知数据的预测能力(泛化能力)。
防止过拟合,常用的方法有正则化和交叉验证。
泛化能力
泛化能力是由学习方法学习得到的模型对于未知数据的预测能力,期望风险越小,泛化能力越强。
那么两种学习方法的优劣用什么指标来衡量呢?
答案是泛化误差上界,它指的是泛化误差概率的上限。
两类模型
机器学习中的监督学习,主要有两类模型划分:
-
生成模型-由数据学习联合概率分布(概率密度函数)P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。
-
判别模型- 由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型,即判别模型
生成模型 vs 判别模型
相比于判别方法,生成方法可以还原出联合概率分布P(X,Y);学习收敛速度更快;存在隐变量时也可以使用生成方法学习;
相比于生成方法,判别方法直接学习的时条件概率或决策函数,直接面对预测,往往学习的准确率更高;可以对数据进行各种程度上的抽象、定义特征等,简化学习问题
生成模型,更关心给定输入X产生输出Y的生成关系;
判别模型,更关心给定输入X,应该预测什么样的输出Y。
04 监督学习解决的三类代表性问题
分类问题(classify)
定义:
当输出变量Y是有限个离散值时,预测问题便成为分类问题,此时的输入变量X可以时离散也可以是连续的。
过程:
学习-根据已知的训练数据集,利用有效的学习方法学习一个分类器(分类模型、分类决策函数)
分类-利用学习的分类器对新的输入实例进行分类
标注问题(tagging)
定义:
学习一个模型,使它能够对观测序列给出标记序列作为预测。
过程:
学习-基于训练数据集构建一个模型,表示为条件概率分布
标注-按照学习到的条件概率分布模型,
对新的输入观测序列找到相应的输出标记序列
回归问题(regression)
定义:
用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
过程:
学习-基于训练数据构建一个模型Y=f(X)
预测-对新的输入x,根据学习到的模型确定相应地输出
05 预告
本文总结了《统计学习方法》第一章内容,围绕统计学习三要素——模型、策略、算法,进行概念普及,后面的章节都会基于这三要素进行学习。
下周我会分享关于机器学习元老方法-感知机,以及常用方法-k近邻法的有关知识点,敬请期待~~
网友评论