机器学习入门介绍

作者: RoyZShare | 来源:发表于2018-06-08 15:32 被阅读0次

机器学习入门介绍

学习并整理从 Machine learning basics

机器学习是一种数据科学技术，它允许计算机使用现有的数据来预测未来的行为、结果和趋势。使用机器学习，不需要为计算机显式编程而让它自己学习。

机器学习的预测可以使应用程序和设备更加智能化。当你网上购物时，机器学习会帮你根据所购买的产品推荐你可能喜欢的其他产品。当您的信用卡被刷卡时，机器学习将交易与交易数据库进行比较，并帮助检测欺诈行为。当你的真空吸尘器机器人清洁房间时，机器学习有助于它决定是否完成了工作。

介绍1 ：数据科学可以解答的5个问题
介绍2 ：怎么准备数据
介绍3 ：怎么提出问题
介绍4 ：使用模型预测答案
介绍5 ：学习他人成果

数据科学可以解答的问题

数据科学只可解答以下五种问题：

是A还是B？
是否异常？
多少？
怎么组织？
接下来该怎样做？

以上每个问题都由一系列的机器学习方法（称为算法）回答。

将算法视为配方，数据视为材料, 算法告知如何组合以及混合数据以获取答案。计算机如同搅拌机, 它们可快速完成算法的大部分繁琐工作。

问题1：是A还是B？使用分类算法

是A还是B使用二元分类算法，对于任何仅有两种可能答案的问题很有用。例如:

此轮胎是否会在下一千英里中出现故障：是或否？
以下哪种方案可吸引更多顾客：5美元优惠券或25%折扣？

此问题还可进行扩展为两个以上的选项：这是 A、B、C 还是 D，等等。这称为多元分类，对于有多个或数千个可能的答案时很有用。多元分类选择可能性最大的那个答案。

问题2：这是否很奇怪？使用异常检测算法

如果你有信用卡，那么已从异常检测中获益。信用卡公司会分析购买模式去提醒用户可能的被欺诈行为。 “异常”消费可能是在一家通常不会去购物的商店购物时，或着购买非常昂贵的物品。此问题在很多方面都很有用。例如：

如果汽车上配有压力表，可能会想知道：此压力表读数是否正常？
如果正在监控 Internet，就会想知道：此消息是否是来自 internet 的典型消息？

异常检测标志意外或异常事件或行为。它会提供在何处查找问题的线索。

问题3：多少？使用回归算法

回归算法进行数字预测，例如：

下周二的气温是多少？
第四季度销售额有多少？

它们可帮助回答任何寻求数字答案的问题。

问题4：怎么组织？使用聚类分析算法

有时希望了解数据集的结构 - 组织方式为何? 对于此问题，并没有已经知道结果的示例。
可通过多种方法梳理出数据结构。其中一种方法就是聚类分析。为方便解释，该方法将数据分成多个自然“群”。
使用聚类分析，不会存在正确答案。

聚类分析问题的常见示例有：

哪些观众喜欢同类型的电影？
哪些打印机型号出现故障的方式相同？

通过了解数据的组织方式，可以更好地了解并预测行为和事件。

问题5：应该做什么？使用强化学习算法

强化学习的灵感来自于老鼠和人类的大脑对惩罚和奖励的反应。这些算法从结果中学习，并决定下一步操作。
通常，强化学习适用于自动系统，这些自动系统需要在没有人工指导的情况下做出大量小决策。
算法总是用于回答此类问题：（通常指计算机或机器人）应采取何种操作。示例如下：

如果是房子的温度控制系统：调整温度或保持其原温度？
如果是自动驾驶汽车：黄灯时，刹车或加速？
对于机器人吸尘器：继续吸尘或返回充电站？

强化学习算法在执行过程中收集数据，从试验和错误中学习。

准备数据

必须先提供一些优质原材料（数据）供数据科学分析，它才能提供你所需的答案。就像做披萨一样，制作前准备的原料越好，最终的产品也会越好。
数据要素：

相关
连贯
准确
足够多

数据是否相关？

左侧表格列出了在波士顿酒吧外测试的七个人的血液酒精含量、红袜队最后一场比赛的击球率以及最近的便利店中的牛奶价格。
此数据完全准确。唯一的问题是它们不相关。这些数字之间没有明显的关系。

然后观察右侧的表。这一次，我们测量了每个人的体重以及他们饮酒的量。
现在，每行中的数字彼此相关。如果提供体重和喝的玛格丽塔数量，便可猜测血液酒精含量。

数据是否连贯？

以下是一些关于汉堡质量的相关数据：烤制的温度、肉饼的重量和以及在用户评价等级。
但请注意左侧表中的空白处。其实大多数数据集都缺少某些值。这样的空白很常见，是可以解决的。
但是如果值缺失过多，就很难找出烤制温度和肉饼重量之间存在的关系。

但是，右侧表数据很完整，是连贯数据的示例。

数据是否精确？

以上是四个要命中的靶子。

看看右上角的靶子。在靶心附近有一组紧密聚集的数据。当然，这是准确的。奇怪的是，在数据科学中，右下方靶子所呈现的数据也被视为准确数据。

如果标出这些箭支的中心点，会发现它非常靠近靶心。箭支分散在靶子四周，因此认为其不精确。但它们都是以靶心为中心围绕分布，所以认为其是准确的。

现在看看左上方靶子。这里的箭射得很近，在这个靶子上，箭支击中的点非常集中，形成一个紧密集聚的组。它们是非常精确的，但因其中心远离靶心，所以他们所反应的数据是错误数据。左下方靶子中的箭支是错误且不精确的。这名弓箭手需多加练习。

数据是否足够？

将表中的每个数据点视为画作中的每一笔触。如果只有少许几笔，则这幅画会模糊，很难分辨它是什么。
添加的笔触越多，画的轮廓就越清晰。
随着添加的数据增多，图片变得更为清晰，可以进行一些更具体的判断。

有了相关、连贯、准确且充足的数据，就有了进行优质数据科学分析所需的全部要素。

提出问题

提出清晰具体的问题。

如果问它一个模糊的问题，比如“我的股票接下来如何？”，它可能会回答，“价格会改变”。这是一个正确的答案，但不是非常有帮助。

但是，如果提出一个清晰具体的问题，如“下周，我的股票售价如何？”，它便只能给出具体的回答，并预测售价。

示例答案

制定问题时，检查数据中是否有示例答案。
如果问题是“下周，我的股票售价如何？”，则必须确保数据包括股票价格历史记录。
如果问题是“车队中的那辆车会首先出现故障？”，则必须确保数据包括以前故障的相关信息。
这些示例答案被称为目标数据，若没有目标数据，则无法回答问题。

重新制定问题

问题“此数据是 A 还是 B？”，预测事物类别。若要回答此问题，请使用分类算法。
问题“多少？” 或着“数量？” 可对量进行预测。若要回答此问题，请使用回归算法。
若要了解如何转换这些问题，让我们来看看这个问题：“读者最感兴趣的是哪个新闻故事？” 这要求从多种可能性中预测某个单一选择 - 换句话说，“这是 A 还是 B 或 C 或 D？” - 这将使用分类算法。
但是，如果将问题改写为“读者对该列表中每个故事的感兴趣度为多少？”，则这个问题可能更容易回答。现在，可以给每篇文章一个分数，并可轻松确定最高分的文章。这是将分类问题改写为回归问题。
可以通过重新制定问题，从而使用能提供最佳答案的算法。

使用简单模型预测答案

假如我们想预测一个1.35 克拉的钻石的价格。我首先来到珠宝店，并记下当场所有钻石的价格和重量（以克拉为单位）。然后绘制一个坐标，X轴为重量，Y轴为价格。接下来绘制数据并将其转换为散点图。连接数据点绘制模型并使用模型找出答案。

我们完成了需要聘请数据科学家才能完成的工作，完成方法仅是通过绘制：

提出可使用数据回答的问题
使用线性回归构建模型
进行预测，并借助置信区间完成

而且没有使用数学计算或计算机。
现在假设我们有更多信息，例如钻石的切割、颜色差异（钻石的颜色与白色的接近程度）、钻石中杂质量...那么我们会有更多列。
在这种情况下，数学计算就很有用。
如果有两个以上的列，则很难在纸上描点。数学计算能使线或平面与数据很好地对应。
此外，如果不是只有少量钻石，而是有两千颗或两百万颗，那么使用计算机能更快完成此工作。

学习他人成果

Microsoft 拥有一项基于云的服务，名为 Azure 机器学习工作室，可以免费进行试用。
它提供了一个工作区，可在其中使用不同的机器学习算法进行试验。

此服务的一部分被称为 Azure AI 库。它包含资源，包括 Azure 机器学习试验或模型（由用户生成并贡献给他人使用）的集合。这些试验是利用他人的想法和工作成果，开始自己的解决方案的绝佳方式。

网友评论

本文标题：机器学习入门介绍

本文链接：https://www.haomeiwen.com/subject/pgjasftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

机器学习入门介绍

机器学习入门介绍

数据科学可以解答的问题

准备数据

提出问题

使用简单模型预测答案

学习他人成果

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读