AI产品经理修行—机器学习必知(下）

作者: S夏薇 | 来源:发表于2019-05-29 20:21 被阅读0次

六、机器学习算法及分类

AI产品经理通过了解每种算法的基本逻辑、最佳使用场景。有助于产品前期规划和初步评估，并且与研发人员进行良好的交流。

算法与模型，对初学者来说确实不好分辨，不知道有什么区别。“算法”是解决问题的清晰的指令，是解决问题的策略机制，而“模型”是一种“中间件”，会因【训练数据】和【算法】的不同而变化。你可以通过相同的算法和不同的训练数据产生一种不同的模型，也可以使用不同的算法和相同的训练数据产生另外一种不同的模型，算法和模型关系如下图。

图6-1 算法与模型关系

算法没有固定的分类标准，可以按照不同类型进行划分，下文将按照3种分类交叉认知算法，通过交叉分类，可以更好的了解各种算法的应用逻辑。

按照常用算法类型可以分为：回归算法、神经网络、SVM、聚类算法、降维算法、推荐算法、异常检测七种。

按照处理任务的不同来分类，可以分为：二分类、多分类、回归（预测）、聚类、推荐五种。

按照模型训练方式可以分为：监督学习、无监督学习、强化学习、深度学习四大类。

1.根据常用算法类型分类

回归算法

在大部分机器学习课程中，回归算法都是介绍的第一个算法。原因有两个：一.回归算法比较简单，介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面若干强大算法的基石，如果不理解回归算法，无法学习那些强大的算法。回归算法有两个重要的子类：即 线性回归 和 逻辑回归 。

（1）线性回归

线性回归处理的是数值预测问题，也就是最后预测出的结果是数字，例如房价。

（2）逻辑回归（LR)

逻辑回归是一种与线性回归相似的算法，但是本质上，线性回归处理的问题类型与逻辑回归不一致，逻辑回归属于分类算法，也就是说，逻辑回归预测结果是离散的分类，例如判断是否垃圾邮件。下图是逻辑回归画出的一条分类线。

图6-2逻辑回归线性分类图

逻辑回归算法划出的分类线基本上都是线性（也有划出非线性的分类线，但那样的模型在处理数据量较大的时候效率会很低），这意味着当两类之间的界限不是线性时，逻辑回归的表达能力就不足，下面两种算法是机器学习接最强大且最重要的算法，可以拟合出非线性的分类线。

神经网络

神经网络的学习机理简单来说，就是分解与整合。一个简单的神经网络的逻辑架构分成输入层，隐藏层，和输出层。输入层负责接收信号，隐藏层负责对数据的分解与处理，最后的结果被整合到输出层。每层中的一个圆代表一个处理单元，可以认为是模拟了一个神经元，若干个处理单元组成了一个层，若干个层再组成了一个网络，也就是”神经网络”。

图6-3神经网络架构图

在神经网络中，每个处理单元事实上就是一个逻辑回归模型，逻辑回归模型接收上层的输入，把模型的预测结果作为输出传输到下一个层次。通过这样的过程，神经网络可以完成非常复杂的非线性分类。

SVM（支持向量机）

SVM用于处理分类问题，支持向量机算法从某种意义上来说是逻辑回归算法的强化：通过给予逻辑回归算法更严格的优化条件，支持向量机算法可以获得比逻辑回归更好的分类界线。

支持向量机是一种数学成分很浓的机器学习算法（相对的，神经网络则有生物科学成分）。在算法的核心步骤中，有一步证明，即将数据从低维映射到高维不会带来最后计算复杂性的提升。于是，通过支持向量机算法，既可以保持计算效率，又可以获得非常好的分类效果。

聚类算法

前面的算法中一个显著的特征就是训练数据中包含了标签，训练出的模型可以对未知数据预测标签。在下面的算法中，训练数据都是不含标签的，而算法的目的则是通过训练，推测出这些数据的标签。这类算法有一个统称，即无监督算法(前面有标签的数据的算法则是有监督算法)。无监督学习算法中最典型代表就是聚类算法。

让我们还是拿一个二维的数据来说，某一个数据包含两个特征。我希望通过聚类算法，给他们中不同的种类打上标签，我该怎么做呢？简单来说，聚类算法就是计算种群中的距离，根据距离的远近将数据划分为多个族群。聚类算法中最典型的代表就是K-Means算法。

降维算法

降维算法也是一种无监督学习算法，其主要特征是 将数据从高维降低到低维层次。在这里，维度其实表示的是数据的特征量的多少，例如，房价包含房子的长、宽、面积与房间数量四个特征，也就是维度为4维的数据。

降维算法的主要作用是压缩数据与提升机器学习其他算法的效率。通过降维算法，可以将具有几千个特征的数据压缩至若干个特征，在特征提取中使用较多。降维算法的另一个好处是数据的可视化，例如将5维的数据压缩至2维，然后可以用二维平面来可视。降维算法的主要代表是PCA算法(即主成分分析算法)。

推荐算法

推荐算法是目前业界非常火的一种算法，在电商界得到了广泛的运用。推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西，从而增加购买率，提升效益。推荐算法有两个主要的类别：一类是基于物品内容的推荐，另一类是基于用户相似度的推荐。

两类推荐都有各自的优缺点，在一般的电商应用中，是两类混合使用。推荐算法中最有名的算法就是协同过滤算法。

异常检测

异常检测是对数据中存在的，不正常货或非典型的个体进行检测和标志，有时也称为偏差检测。属于无监督学习中的聚类问题。

异常检测经常被使用在如下场景：信用卡欺诈检测，计算机安全检测，健康风险检测等，以信用卡欺诈检测为例，通过对用户购买行为、习惯建模，银行可以检测到异常消费情况，如购买的物品种类分布与平时不同，就及时对用户进行风险提示。

常见的2种算法，一分类支持向量机：适用于数据特征较多的场景；基于PCA的异常检测：适用于训练时间短的场景。

小结

除了以上算法之外，机器学习界还有其他的如高斯判别，朴素贝叶斯，决策树等算法。上面列的前六个算法是使用最多，影响最广，种类最全的典型。下面做一个总结，按照训练的数据有无标签，可以将上面算法分为监督学习算法和无监督学习算法。其中推荐算法比较特殊即不属于监督学习、也不属于无监督学习。

监督学习算法：线性回归，逻辑回归，神经网络，SVM

无监督学习算法：聚类算法，降维算法、异常检测

特殊算法：推荐算法

2.根据解决任务不同分类

在机器学习要解决的具体业务场景中，去寻找问题本质，是分类、聚类、回归，还是推荐。

回归（预测）

处理数值结果预测问题，常用包括算法：GBDT（梯度提升树）、随机森林、决策树、XGboost、线性回归。

二分类

处理“2选1”分类问题，常用包括算法：GBDT(梯度提升树）、随机森林、GXboost、LightGBM、逻辑回归（LR)、SVM（支持向量机）。

多分类

处理多种类型分类问题，常用包括算法：随机森林、决策树、XGboost、LightGBM、朴素贝叶斯、神经网络、逻辑回归（LR)。

聚类

通过无监督学习，程序按照特征自己分组，常用包括算法：k-means ，GMM。

3.根据学习方式分类

监督学习

监督学习处理两种类型问题：

分类：预测输出变量处于类别形式的给定样本的结果。例如男性和女性，病态和健康等标签。

回归：预测给定样本的输出变量的实值结果。例子包括表示降雨量和人的身高的实值标签。

线性回归、逻辑回归、CART（分类与回归树）、朴素贝叶斯、KNN都是监督学习。

无监督学习

无监督学习处理三种类型问题：

关联：发现数据集合中的相关数据共现的概率。它广泛用于市场篮子分析。例如：如果顾客购买面包，他有80％的可能购买鸡蛋。

群集（聚类）：对样本进行分组，使得同一个群集内的对象彼此之间的关系比另一个群集中的对象更为相似。

降低维度：维度降低意味着减少数据集的变量数量，同时确保重要的信息仍然传达。可以使用特征提取方法和特征选择方法来完成维度降低。特征选择选择原始变量的一个子集。特征提取执行从高维空间到低维空间的数据转换。Apriori、K-means、PCA是无监督学习的例子。PCA算法是一种特征提取方法。

强化学习

强化学习比监督学习和无监督学习，更好的处理预测、分类、聚类等问题。它们通常用于机器人的训练，近期的alphago zero就是采用的强化学习的方法，来完成实验的。常用的算法如Q-Learning 算法、时间差学习、SARSA、DQN 和 DDPG 算法。

深度学习

同传统机器学习方法一样，深度机器学习模式也有监督学习与无监督学习、强化学习之分．不同的学习框架下建立的学习模型很是不同．例如，卷积神经网络（CNNs）就是一种深度的监督学习下的机器学习模型，而深度置信网络（DBNs）就是一种无监督学习下的机器学习模型。

很多深度学习的算法是半监督式学习算法，用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括：受限玻尔兹曼机（ RBN）、深度玻尔兹曼机（DBM）、卷积神经网络（CNN）、全连接神经网络(FC）、循环神经网络（RNN)、栈式自编码算法（Stacked Auto-Encoder）。

参考文章

【1】人工智能产品经理-AI时代PM修炼手册

【2】人工智能标准化白皮书

【3】小白也能读懂的机器学习入门指南

【4】机器学习中无监督与监督学习的七大区别

【5】机器学习初学者必须知道的十大算法

AI产品经理修行—机器学习必知(下）

六、机器学习算法及分类

1.根据常用算法类型分类

回归算法

2.根据解决任务不同分类

3.根据学习方式分类

监督学习

无监督学习

强化学习

深度学习

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Aidesign