机器学习-3：机器学习的基础概念

作者: Doawen | 来源:发表于2019-12-12 01:49 被阅读0次

机器学习-3：机器学习的基础概念
知识图谱学习笔记（二）——机器学习基础
0.课程介绍及教学说明
机器学习 -- 绪论（四）机器学习的相关基础概念
机器学习概述与算法介绍(二)
2019-05-14 2. 使用 scikit-learn 的
谷歌发布机器学习速成课程
花书第五章笔记
《深入浅出GNN》Notes_2
机器学习基础概念

监督学习和无监督学习

机器学习领域主要分两个大类，分别是监督学习和无监督学习，他俩最核心的区别在于数据有没有标签。

假如监督学习的样本数据为D，则该D包含样本的特征（用x表示）和标签(用y表示)，监督学习的样本数据是既有特征又有标签的，所以监督学习的核心就是学习出x到y之间的映射关系，也称x到y的函数。
映射关系是选择线性的映射关系还是非线性的映射关系取决于我们选择的模型是线性的模型，还是神经网络或svm或其他的非线性的模型。
对无监督学习其数据只有x没有y，即没有任何标签，比如有一堆图片但是并不知道这些图片是什么类别，没有标签就学不到映射关系。那能做的就是寻找x的特征或规律，比如通过一个算法分析大量样本内部的性质，根据性质把样本分成几大类等，每一个大类都有自己的共性。比如对用户群体分类，制定个性化方案。

通俗讲，监督学习中的样本通常包含样本特征和对该样本的标签，目的就是使机器学习出样本特征到标签的映射关系；无监督学习的样本只有数据特征没有标签，没有标签也就没有映射关系，能做的就是寻找数据的特征和规律，算法过程不依赖于数据的标签只能做一些分析和分类工作。其中最经典的就是聚类分析，也就是把类似的物体聚集在一起。

在工业界应用主要还是以监督学习为主，对于无监督学习的实际场景主要还是以聚类分析为主（聚类分析就是无监督学习中的经典应用），其中最经典的聚类算法叫做 K-means，也是一个极其简单的算法。另外，聚类分析方法经常用在营销过程当中。
对于监督学习拥有大量的例子，只要有标签而且跟预测相关都可以归类为监督学习。

经典算法

对于监督学习和无监督学习都有一些经典的算法，其中监督学习的算法有：
线性回归：回归里最经典且最简单的算法，可预测某个值；
逻辑回归：其不是一个回归算法主要解决分类问题，是建立在线性回归之上的一个线性模型；
朴素贝叶斯：经典简单，适合文本分类场景；
决策树：类似于树状结构，我们每天都在潜意识中使用该模型；
随机森林：用多个决策树一起做决策，类似于同样的问题给多个专家，让他们自己回答并整合他们的结论；
SVM：机器学习里最难的；
神经网络：是深度学习的基础。

无监督学习算法有：
PCA：经典降维算法，把一个高维的数据映射到低维空间里。降维的好处是可以降噪，把没用的信息去掉，可以把数据可视化，在2维空间里没办法可视化的数据，可以降维到2维或3维空间里，通过肉眼的方式来观察；
K-means：最经典的聚类算法，在大量样本发现类似点，然后把他们聚在一个类别里面；
GMM：与k-means相关，可以看成是k-means的一个特例，区别是在于k-means里面一个物体只能属于一个类别；
LDA：是一个主题的模型，经常用在抽取主题特征的时候。