【科普周】看图学机器学习（三）（上篇）

作者: 哈希大数据 | 来源:发表于2018-06-13 10:26 被阅读20次

【科普周】看图学机器学习（三）（上篇）
【科普周】看图学机器学习（三）（下篇）
学习机器学习需要理解的五个基本概念
一个移动开发者的机器学习之路(一)
【Note】MV-机器学习系列之有趣的机器学习
【科普周】机器学习扫盲篇（一）
机器学习科普（开篇）----超简单的机器学习科普系列
从0开始搭建产品经理AI知识框架：机器学习2方法篇
XGBoost（三）：Python语言实现
python数据分析与机器学习(Numpy,Pandas,Mat

欢迎关注哈希大数据微信公众号【哈希大数据】

昨天我们讲了机器学习的“入坑指南”，今天我们给大家介绍机器学习专家Deniz Yuret用10张漂亮的图来解释机器学习的重要概念，哈希在这里给大家普及一下，同时加一些自己的见解！

1.Test and training error（测试集误差和训练集误差）

image.png
为什么训练集误差不是越低越好呢？
上图以模型复杂度为变量的测试集及训练集的误差函数。大家从图中可以看到随着模型复杂度的增加训练集的预测误差越来越小，但测试集的误差确实先变小后变大。

测试集误差可简单认为是由Bias(偏差)+Variance(方差)组成。Bias(偏差)代表模型不精准度，Variance(方差)代表模型的稳定度（既改变训练样本模型参数的变化大小），当模型复杂度底时模型精准度底，但稳定度高。当模型复杂度高时模型精准度高，但不稳定，模型参数受数据样本变化较大。

image.png
由上图左边第一图可以清晰看出Bias在逐渐降低，Var在逐步提高。

2. Under and overfitting（欠拟合和过拟合）

image.png
欠拟合或者过度拟合的例子。下图多项式曲线其中M代表多项式最高次，用红色曲线表示，其中绿色曲线代表生成数据集的函数，图中小圆圈是添加扰动后呈现的。从图中可以看出底次拟合和高次拟合效果都不好。

3. Occam’s razor（奥卡姆剃刀理论）
为什么贝叶斯推理可以具体化奥卡姆剃刀原理。下面这张图直观解释了为什么使用复杂模型原来是小概率事件这个问题。水平轴代表了可能的数据集D空间。贝叶斯定理以他们预测的数据出现的程度成比例地反馈模型。这些预测是通过在数据集D上归一化概率分布来量化的。
数据的概率给出了一种模型Hi,P(D|Hi)被称作支持Hi模型的证据。一个简单的模型H1仅可以做到一种有限预测，以P(D|H1)展示；一个更加强大的模型H2，可以比模型H1拥有更加自由的参数，可以预测更多种类的数据集。但无论如何，H2在C1域中对数据集的预测做不到像H1那样强大。假设两个模型已经分配了相同的先验概率，如果数据集落在C1区域，不那么强大的模型H1将会是更加合适的模型。

image.png

4. Feature combinations（特征组合）
为什么整体相关的特征单独来看也许并不相关，这也是线性方法可能会失败的原因。从Isabelle Guyon特征提取的幻灯片来看。

（
5. Irrelevant features（非相关属性）
为什么无关紧要的特征会损害KNN，聚类，以及其它基于相似度度量的方法。下图中左边这幅图展示了在低纬度情况下一条水平线将两类数据很好地被分离开来。而右图加入了一个新的维度——一条横轴，它破坏了分组，在该情况下不属于同一类别的反而会被分为一组，例如左边一组、右边一组。