Python - 机器学习

作者: 天线嘟嘟茄 | 来源:发表于2020-03-31 23:28 被阅读0次

使用python机器学习（四）
上手实践《Python机器学习第2版》PDF中文+PDF英文+代
搭建python机器学习环境以及一个机器学习例子
使用python机器学习（一）
从0开始打造个人工作平台——python篇
学习资料
图像分割
无标题文章
无标题文章
《Learning scikit-learn Machine L

什么是机器学习

机器学习在许多方面都可以看作是数据科学能力延伸的主要手段。机器学习是用数据科学的计算能力和算法能力去弥补统计方法的不足，其最终结果是为那些目前既没有高效的理论支持、又没有高效的计算方法的统计推理与数据探索问题提供解决方法。

机器学习的本质就是借助数学模型理解数据。当我们给模型装上可以适应观测数据的可调参数时，“学习”就开始了；此时的程序被认为具有从数据中“学习”的能力。一旦模型可以拟合旧的观测数据，那么它们就可以预测并解释新的观测数据。

机器学习一般可以分为两类：

有监督学习（supervised learning）：对数据的若干特征与若干标签（类型）之间的关联性进行建模的过程；只要模型被确定，就可以应用到新的未知数据上。这类学习过程可以进一步分为分类（classification）任务与回归（regression）任务。在分类任务中，标签都是离散值；而在回归任务中，标签都是连续值。
无监督学习（unsupervised learning）：对不带任何标签的数据特征进行建模，通常被看成是一种“让数据自己介绍自己”的过程。这类模型包括聚类（clustering）任务和降维（dimensionality reduction）任务。聚类算法可以将数据分成不同的组别，而降维算法追求用更简洁的方式表现数据。

另外，还有一种半监督学习（semi-supervised learning）方法，介于有监督学习与无监督学习之间。半监督学习方法通常可以在数据标签不完整时使用。

代码地址：https://github.com/jakevdp/PythonDataScienceHandbook

1、分类：预测离散标签（离散点）

假如我们有一些带标签的数据点，希望用这些信息为那些不带标签的数据点进行分类。

我们看到的是二维数据，也就是说每个数据点都有两个特征，在平面上用数据点的 (x, y) 位置表示。另外，我们的数据点还用一种颜色表示一个类型标签，一共有两种类型，分别用两种颜色表示。我们想根据这些特征和标签创建一个模型，帮助我们判断新的数据点是“蓝色”还是“红色”。

5-1

虽然有许多可以解决分类任务的模型，但是这里还是先用最简单的一种。假设平面上有一条可以将两种类型分开的直线，直线的两侧分别是一种类型。那么，我们的模型其实就是“一条可以分类的直线”，而模型参数其实就是直线位置与方向的数值。这些模型参数的最优解都可以通过学习数据获得（也就是机器学习的“学习”），这个过程通常被称为训练模型。