2018-05-23

作者: Mrcwx | 来源:发表于2018-06-01 15:21 被阅读0次

2018-05-23
没卵用的App Carsh log
2020-05-25 球宝两岁啦
小迷妹，感谢你们一路的支持。
假话
日精进打卡（第320天）
对话录之:关于人与自然的交换和自然价格的定义
无戒老师的写作入门课，分享给你
2018-05-24
class-dump 安装

链接：https://www.jianshu.com/p/11df8a5a15bb
來源：简书好东西

机器学习有多种类型，可以根据如下规则进行分类：

是否在人类监督下进行训练（监督，非监督，半监督和强化学习）
是否可以动态渐进学习（在线学习 vs 批量学习）
它们是否只是通过简单地比较新的数据点和已知的数据点，或者在训练数据中进行模式识别，以建立一个预测模型，就像科学家所做的那样（基于实例学习 vs 基于模型学习）

监督学习

在监督学习中，用来训练算法的训练数据包含了答案，称为标签

分类：垃圾邮件过滤器
回归：预测目标数值

在机器学习中，一个属性就是一个数据类型（例如，“里程数”），取决于具体问题一个特征会有多个含义，但通常是属性加上它的值（“里程数=15000”）。

一些重要的监督学习算法：

K近邻算法
线性回归
逻辑回归
支持向量机（SVM）
决策树和随机森林
神经网络

一些最重要的非监督学习算法：

聚类
K 均值
层次聚类分析（Hierarchical Cluster Analysis，HCA）
期望最大值
可视化和降维
主成分分析（Principal Component Analysis，PCA）
核主成分分析
局部线性嵌入（Locally-Linear Embedding，LLE）
t-分布邻域嵌入算法（t-distributed Stochastic Neighbor Embedding，t-SNE）
关联性规则学习
Apriori 算法
Eclat 算法

与此有关联的任务是降维，降维的目的是简化数据、但是不能失去大部分信息。做法之一是合并若干相关的特征。例如，汽车的里程数与车龄高度相关，降维算法就会将它们合并成一个，表示汽车的磨损。这叫做特征提取

在用训练集训练机器学习算法（比如监督学习算法）时，最好对训练集进行降维。这样可以运行的更快，占用的硬盘和内存空间更少，有些情况下性能也更好。

半监督学习

一些算法可以处理部分带标签的训练数据，通常是大量不带标签数据加上小部分带标签数据。

强化学习

强化学习非常不同。学习系统在这里被称为智能体（agent），可以对环境进行观察，选择和执行动作，获得奖励（负奖励是惩罚，见图 1-12）。然后它必须自己学习哪个是最佳方法（称为策略，policy），以得到长久的最大奖励。策略决定了智能体在给定情况下应该采取的行动。

批量和在线学习

另一个用来分类机器学习的准则是，它是否能从导入的数据流进行持续学习。

批量学习

在批量学习中，系统不能进行持续学习：必须用所有可用数据进行训练。这通常会占用大量时间和计算资源，所以一般是线下做的。首先是进行训练，然后部署在生产环境且停止学习，它只是使用已经学到的策略。这称为离线学习。

在线学习

在在线学习中，是用数据实例持续地进行训练，可以一次一个或一次几个实例（称为小批量）。每个学习步骤都很快且廉价，所以系统可以动态地学习到达的新数据

基于实例 vs 基于模型学习

另一种分类机器学习的方法是判断它们是如何进行归纳推广的。大多机器学习任务是关于预测的。这意味着给定一定数量的训练样本，系统需要能推广到之前没见到过的样本。对训练数据集有很好的性能还不够，真正的目标是对新实例预测的性能。

有两种主要的归纳方法：基于实例学习和基于模型学习。

基于实例学习

也许最简单的学习形式就是用记忆学习。

基于模型学习

另一种从样本集进行归纳的方法是建立这些样本的模型，然后使用这个模型进行预测。这称作基于模型学习

机器学习的主要挑战

训练数据量不足

没有代表性的训练数据

为了更好地进行归纳推广，让训练数据对新数据具有代表性是非常重要的。无论你用的是基于实例学习或基于模型学习，这点都很重要。

低质量数据

很明显，如果训练集中的错误、异常值和噪声（错误测量引入的）太多，系统检测出潜在规律的难度就会变大，性能就会降低。花费时间对训练数据进行清理是十分重要的。事实上，大多数据科学家的一大部分时间是做清洗工作的。例如：

如果一些实例是明显的异常值，最好删掉它们或尝试手工修改错误；
如果一些实例缺少特征（比如，你的 5% 的顾客没有说明年龄），你必须决定是否忽略这个属性、忽略这些实例、填入缺失值（比如，年龄中位数），或者训练一个含有这个特征的模型和一个不含有这个特征的模型，等等。

不相关的特征

机器学习项目成功的关键之一是用好的特征进行训练。这个过程称作特征工程，包括：

特征选择：在所有存在的特征中选取最有用的特征进行训练。
特征提取：组合存在的特征，生成一个更有用的特征（如前面看到的，可以使用降维算法）。
收集新数据创建新特征。

过拟合训练数据

过度归纳是我们人类经常做的，如果我们不小心，机器也会犯同样的错误。在机器学习中，这称作过拟合：意思是说，模型在训练数据上表现很好，但是推广效果不好。

过拟合发生在相对于训练数据的量和噪声，模型过于复杂的情况。可能的解决方案有：

简化模型，可以通过选择一个参数更少的模型（比如使用线性模型，而不是高阶多项式模型）、减少训练数据的属性数、或限制一下模型
收集更多的训练数据
减小训练数据的噪声（比如，修改数据错误和去除异常值）

正则化
限定一个模型以让它更简单，降低过拟合的风险被称作正则化（regularization）。例如，我们之前定义的线性模型有两个参数，θ0和θ1。它给了学习算法两个自由度以让模型适应训练数据：可以调整截距θ0和斜率θ1。如果强制θ1=0，算法就只剩一个自由度，拟合数据就会更为困难：能做的只是将在线下移动，尽可能地靠近训练实例，结果会在平均值附近。这就是一个非常简单的模型！如果我们允许算法可以修改θ1，但是只能在一个很小的范围内修改，算法的自由度就会介于 1 和 2 之间。它要比两个自由度的模型简单，比 1 个自由度的模型要复杂。你的目标是在完美拟合数据和保持模型简单性上找到平衡，确保算法的推广效果。

正则化的度可以用一个超参数（hyperparameter）控制。超参数是一个学习算法的参数（而不是模型的）。这样，它是不会被学习算法本身影响的，它优于训练，在训练中是保持不变的。如果你设定的超参数非常大，就会得到一个几乎是平的模型（斜率接近于 0）；这种学习算法几乎肯定不会过拟合训练数据，但是也很难得到一个好的解。调节超参数是创建机器学习算法非常重要的一部分

欠拟合训练数据

你可能猜到了，欠拟合是和过拟合相对的：当你的模型过于简单时就会发生。例如，生活满意度的线性模型倾向于欠拟合；现实要比这个模型复杂的多，所以预测很难准确，即使在训练样本上也很难准确。

解决这个问题的选项包括：

选择一个更强大的模型，带有更多参数
用更好的特征训练学习算法（特征工程）
减小对模型的限制（比如，减小正则化超参数）

测试

交叉验证
为了避免“浪费”过多训练数据在验证集上，通常的办法是使用交叉验证：训练集分成互补的子集，每个模型用不同的子集训练，再用剩下的子集验证。一旦确定模型类型和超参数，最终的模型使用这些超参数和全部的训练集进行训练，用测试集得到推广误差率。

没有免费午餐公理

模型是观察的简化版本。简化意味着舍弃无法进行推广的表面细节。但是，要确定舍弃什么数据、保留什么数据，必须要做假设。例如，线性模型的假设是数据基本上是线性的，实例和模型直线间的距离只是噪音，可以放心忽略。

在一篇 1996 年的著名论文中，David Wolpert 证明，如果完全不对数据做假设，就没有理由选择一个模型而不选另一个。这称作没有免费午餐（NFL）公理。对于一些数据集，最佳模型是线性模型，而对其它数据集是神经网络。没有一个模型可以保证效果更好（如这个公理的名字所示）。确信的唯一方法就是测试所有的模型。因为这是不可能的，实际中就必须要做一些对数据合理的假设，只评估几个合理的模型。例如，对于简单任务，你可能是用不同程度的正则化评估线性模型，对于复杂问题，你可能要评估几个神经网络模型。

2018-05-23
2018-05-23 戴师傅简书作者 2018-05-23 20:57 打开App （稻盛哲学学习会）打卡第63天...
没卵用的App Carsh log
{"app_name":"ifenqu","timestamp":"2018-05-23 02:29:31.33 ...
2020-05-25 球宝两岁啦
球宝生日： 2018-05-23 球宝两岁啦！
小迷妹，感谢你们一路的支持。
浅水涅槃 2018-05-23 18:48 · 字数 1080 · 阅读 86 · 我与读者的故事【作者大大祝善...
假话
文/紫玉姑娘 2018-05-23 亲爱的文文，现在我们来数数你说假话的事。你...
日精进打卡（第320天）
2018-05-23 姓名：李义公司：........ 组别：259期利他二组【知~学习】背诵六项精进大纲...
对话录之:关于人与自然的交换和自然价格的定义
林汉扬写于2018-05-23 无知求知于 2018-5-23 说:“价格就是交换比。″ 一一一一一一一一一一...
无戒老师的写作入门课，分享给你
2018-05-23 星期三晚上无戒小岛课程笔记禅是一枝花／整理写作过程...
2018-05-24
2018-05-23· 字数 493· 阅读 84· 日记本姓名:周富强公司:厦门大科机械有限公司日精进打卡...
class-dump 安装
0. 更新时间 2018-05-23 1. 下载 2. 安装打开终端，输入命令，再当前用户目录下，创建"bin"...

2018-05-23

监督学习

半监督学习

强化学习

批量和在线学习

批量学习

在线学习

基于实例 vs 基于模型学习

基于实例学习

基于模型学习

机器学习的主要挑战

训练数据量不足

没有代表性的训练数据

低质量数据

不相关的特征

过拟合训练数据

欠拟合训练数据

测试

相关文章

2018-05-23

没卵用的App Carsh log

2020-05-25 球宝两岁啦

小迷妹，感谢你们一路的支持。

假话

日精进打卡（第320天）

对话录之:关于人与自然的交换和自然价格的定义

无戒老师的写作入门课，分享给你

2018-05-24

class-dump 安装

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读