机器学习系列（一）——初识修罗场：机器学习简介

作者: Ice_spring | 来源:发表于2019-06-03 14:49 被阅读6次

机器学习系列（一）——初识修罗场：机器学习简介
机器学习笔记
机器学习（一）：机器学习简介
模型评估、过拟合欠拟合以及超参数调优方法
2019-02-17
特征工程(完）
特征工程之特征缩放&特征编码
特征工程之数据预处理(下)
常用机器学习算法汇总比较(完）
特征工程之数据预处理（上）

本系列会尽量用最清晰的逻辑讲清楚机器学习算法的原理。

什么是机器学习？

机器学习的核心思想是创造一种普适的算法，类似于黑匣子，它能从数据中挖掘出有规律的东西，而不需要针对某个问题去写代码。你需要做的只是把数据“投喂”给这个算法，然后它会在数据上建立自己的逻辑。最基本的机器学习算法是解决分类和回归两大类问题。

机器学习

机器学习的分类

从机器学习算法本身来看，可分为监督学习、非监督学习、半监督学习、增强学习。
监督学习：给机器的训练数据拥有标记或标签的学习方式是监督学习。监督学习主要处理分类和回归问题，本系列大部分算法都是监督学习类算法，主要的监督学习算法有下面几种。

k近邻线性回归和多项式回归逻辑回归 SVM 决策树和随机森林

非监督学习：给机器的训练数据没有任何标记或标签答案。
它经常对这些数据做聚类分析型分类和异常值检测。另外非监督学习可用于对数据进行降维，降维包括特征提取和特征压缩，经典的PCA算法就是非监督学习算法用于实现特征压缩，降维把高纬特征向量变为低纬，方便计算和可视化。
半监督学习：顾名思义是监督学习和非监督学习的组合，给机器的训练数据一部分有标记或答案，另一部分没有。这种情况往往更常见，现实中各种原因都可能导致标记缺失。比如手机照片的分类，有些我们自己标记了类别，有些没有，对手机照片的分类就类似一个半监督学习。这类问题一般先使用无监督学习对数据进行处理，之后使用监督学习手段做模型的训练和预测。
增强学习：根据周围环境的情况采取行动，根据每次行动的结果和反馈，学习和调整行动方式。如AlphaGo内部的算法。现在无人驾驶，机器人等都是这种方式进行学习。监督学习和半监督学习依然是增强学习的基础。

机器学习的其它分类

在线（online）学习和批量（batch）学习

批量学习：这种学习方式首先要准备一定量的样本数据集资料，将数据集送给模型训练，训练之后即将模型投入生产。其优点是简单，不考虑后来喂入的数据如何优化算法，缺点问题是适应环境变化的能力弱。解决办法是定时重新批量学习，但是计算开销大。
在线学习：训练过程批量学习一样，不同是在线学习输入样例也参与模型训练，迭代更新模型。优点是及时反应环境变化，但新的数据可能带来不好的变化，比如一些离群点不正常数据点。解决办法是及时进行异常值检测。

参数学习和非参数学习

参数学习：是对模型做一些规律（函数）性假设，一旦学习到参数，就不再需要原有的数据集执行预测了，如线性回归确定线性模型参数，参数确定后，执行预测时按函数运算就行而无需数据集值的作用。
非参数学习：不对模型做过多假设，参与训练的数据集通常都要参与预测。但非参数学习并不意味没有参数，而是并不对整个问题进行某种模型定义。

机器学习的哲学思考

数据即算法？

2001年，微软公式发表了一篇轰动全球的论文，论文阐述说算法本身好像对于预测分类等任务影响不大，因为不同的算法，只要给它足够的数据，它们最后的准确率都是稳步上升接近100%的。所以不少人提出数据即算法？也正因为如此，大数据时代拉开帷幕，算法也开始对数据本身越来越重视，著名数据科学家维克托麦尔舍恩伯格说到：大数据时代最大的转变就是对待数据处理思维方式的三种转变，现在对数据的处理强调：

全样而非抽样、效率而非精确、相关而非因果。

现在大多数机器学习算法都是数据驱动型的，算法性能高度依赖数据质量。所以提高数据质量，研究数据的哪些特征才是最重要的也非常重要。

算法为王？

然而AlphaGoZero的出现，似乎挑战了这种说法，AlphaGoZero是一种基于增强学习的人工智能。AlphaGoZero在训练中人类没有给它输入任何数据，它的数据都是算法自行产生的，所谓从零开始（starting from scratch），它从空白状态学起，在无任何人类输入的条件下，迅速自学围棋，并以100:0的战绩击败“前辈”AlphaGo。对于有些问题即使没有数据，算法也可以生成数据。不过围棋有特殊性在里面，并不一定对所有领域都适用。但这个突破告诉我们算法本身依然很重要。再好的数据都要有高效优秀的算法作为辅助，才能最大程度发挥数据本身的作用。

如何选择算法？

奥斯卡姆剃刀原则：简单就是最好的

然而机器学习领域什么才叫简单呢？

没有免费的午餐定理NFL：可以严格地数学推导出，任意两个算法，它们的期望性能是相同的。

也就是没有任何一个算法比另外一个算法好，相当于所有算法等价。该定理只是定义在有限的搜索空间。针对特定问题，有些算法可能更好。

网友评论

本文标题：机器学习系列（一）——初识修罗场：机器学习简介

本文链接：https://www.haomeiwen.com/subject/txqcxctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！