机器学习漫谈

作者: 插着扇子的石头 | 来源:发表于2017-04-17 09:48 被阅读930次

机器学习

数据挖掘/机器学习项目一般包括四个关键部分，分别是，数据分析，特征工程，建立模型，验证。

1 数据分析

从广义上讲，数据分析包括数据收集，数据处理，数据清洗，探究性数据分析，建模和算法设计，数据可视化等等[1]。从狭义上讲，数据分析指的是探究性数据分析（EDA）。

所谓探索性数据分析（Exploratory Data Analysis，以下简称EDA），是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法[2]。

数据分析常用工具有Excel，SPSS，python，R等等。我常用的工具是Excel和python。

数据分析可以做什么？

1、计算数据中每个属性的范围，四分位点，百分位点等。

2、单属性排序，多属性排序，取Top N或Bottom N。

3、按条件过滤。多个条件联合过滤，做交并差。

4、利用图表查看某个属性值在给定数据集上的分布情况。比如箱线图，直方图，折线图。

5、利用散点图查看两个属性的相关性。

6、聚类分析，通过可视化数据发现相似的对象。聚类是将相似的对象划为同一组，使得组内对象相似度高，组间对象差异大[3]。

7、利用散点图查看异常点。

2 特征工程

特征工程与领域知识紧密相关，需要深入理解当前业务。特征可以分为两类，稀疏特征和紧密特征。稀疏特征是指只有极少的属性值非零的特征。

2.1 设计特征

以商品推荐为例，首先构建三类基本特征。

1、用户对商品的行为特征。最近3天（7天/14天/30天/总的）用户点击（收藏/加入购物车/购买）商品的次数；最后一次点击时间；点击（收藏/加入购物车/购买）的天数……

2、品牌自身的特征。最近7天（30天/总的）被点击（收藏/加入购物车/购买）次数，最近7天（30天/总的）点击（收藏/加入购物车/购买）该商品的用户数目，回头客的数目……

3、用户自身的特征。购买的商品件数；第一次（最后一次）访问时间（购买时间）……

由基本特征衍生出一些特征，其中包含很多强相关特征。例如，转化率，回头率，最近一个月用户点击（购买）该商品的次数除以用户对所有商品的点击（购买）次数……

特征的扩充通常是将基本特征两两相除、相乘、求交、求并等等，获得新的特征。将单特征的属性值用0-1编码扩充成多个特征也是常用的技术之一，俗称“哑变量”。也可以将多个特征的属性值按一定的权值相加，构成新的特征。

2.2 特征归一化

通常情况下，SVM和GBDT模型需要预先进行特征归一化，而RF不需要。常用特征归一化方法有三种。

1、最大最小值归一化。x' = (x - min) / (max - min)

2、Z-score归一化。x' = (x -μ) /σ

3、对数归一化。x' = log(1+x)

如果机器学习模型使用梯度下降法求最优解，那么往往需要归一化，否则很难收敛甚至不能收敛【7】。

2.3 特征选择

非正式地说，特征选择是从大量原始特征集合中，选择一个子集，使得模型简单有效。特征选择有三大好处：1、增强了模型的泛化能力，改善了预测器的性能；2、缩小了算法消耗的空间，缩短了算法消耗的时间；3、模型更容易解释。

特征选择算法分三类。

1、特征排序，又称筛选器特征选择方法（Filter Methods）。不考虑特征间的依赖性，按一定的标准为每个特征打分，从高到低选取特征。例如，分别计算每个特征与目标变量的相关系数，取绝对值最大的Top N个变量。常见的标准包括卡方检验，信息增益，基尼指数，相关系数。三类经典决策树模型的主要区别在于特征选择算法不同，ID3采用信息增益，C4.5采用信息增益率，CART采用基尼系数。优点：计算简单、快速。缺点：忽略特征间的相关性。

2、包装器方法（Wrapper Methods）。包装器方法主要有三种，向前贪心算法，向后贪心算法，向前向后算法。向前贪心算法，即从空特征集合起，每次向集合中添加一个特征，直到模型性能不再改善为止。向后贪心算法，即从满特征集合起，每次从集合中删除一个特征，直到模型性能不再改善为止。该类方法的缺点有两个，分别是容易过拟合和计算时间比较长。优点：考虑特征间的相关性。缺点：比Filter方法更容易过拟合，且计算量大。

3、嵌入式方法（Embedded Methods）。嵌入式方法和包装器方法类似，但是嵌入式方法不容易过拟合且消耗时间较短。举一个嵌入式方法的例子，引入L1正则项，训练后权重为0的特征就是被丢弃的特征。优点：考虑特征间的相关性，且比Wrapper方法计算量小得多。

“scikit-learn”文档[5]中介绍的特征选择方法包括，丢弃低方差的特征，卡方检验，用交叉检验的方法递归消除特征，用带L1正则项的线性模型训练然后选择权重非0的特征，基于树的特征选择等等。

3 建立模型

常见的四种模型分别是LR（线性回归 / logistic回归）、SVM、RF、GBDT。每种模型有自己的损失函数，损失函数由损失项和正则项两部分构成。线性回归采用平方误差损失函数，logistic回归采用log损失函数，SVM采用hinge损失函数。对于分类问题，RF通常采用基尼指数作为损失函数，又称评价标准，有时也选择将信息增益率作为评价标准。对于回归问题，RF通常将均方误差作为损失函数。对于分类问题，GBDT通常将负的二项式对数似然函数作为损失函数。对于回归问题，GBDT通常采用的损失函数包括平方误差损失函数，Huber损失函数（对异常值不敏感），指数损失函数，对数损失函数等。

3.1 LR（线性回归/logistic回归）

一般来讲，线性回归适用于回归问题，logistic回归适用于分类问题。LR（线性回归/logistic回归）模型非常简单，不容易过拟合，适合做baseline。线性拟合好不好一般看R2，R2越接近1越好。LR计算速度很快，与L1正则化配合使用，可以处理包含成千上万维稀疏特征的海量数据。LR模型的可解释性很强，应用广泛，是其他模型的基石。LR容易吸收新的数据，并更新模型（用随机梯度下降算法）。对于很多实际问题（如广告点击率预测），往往特征非常多，这时候时间约束通常不允许我们使用很复杂的非线性分类器。这也是为什么算法发展这么多年，广告点击率预测最常用的方法还是logistic回归[6]。LR的缺点是不适合解决非线性问题，不适合处理无序类别特征（比如职业分类为工、农、商、学、兵5类）。前者的解决措施是进行特征变换，后者的解决措施是采用哑变量进行编码。

3.2 SVM

通俗点讲，线性SVM是在给定的数据集上找一个超平面，使得支持向量（超平面两边距离超平面最近的点）到超平面的距离最大。线性SVM不仅适用于大样本，也适用于小样本的分类问题。核函数使得SVM能够解决非线性问题，最常用的核函数是径向基核函数。

SVM在研究实验室中比较常见，在工业界用的比较少。线性SVM和logistic回归效果差不多，非线性SVM由于速度慢，可解释性差，参数难调等缺点，不适合处理海量数据。在工业界用的最多的还是logistic回归，特征以稀疏特征为主。

线性SVM和logistic回归的主要差别在于，SVM中只有决策边界附近的点才有意义，离决策边界很远的点在SVM模型中没有意义，而对logistic回归模型影响较大[8]。

3.3 RF

学习随机森林模型前，一定要先了解决策树模型。树越深，模型越复杂。

决策树模型的优点如下。

1、容易理解和解释，树可以被可视化。

2、不需要太多的数据预处理工作，即不需要进行数据归一化，创造哑变量等操作。

3、隐含地创造了多个联合特征，并能够解决非线性问题。

决策树模型最大的缺点是容易过拟合。

随机森林由很多棵不同的决策树构成，对于一个给定的预测对象，每棵决策树都输出一个label，最后采取“投票”的方式，选择得票最多的label作为最终结果。随机森林是一种集成方法，也被认为是最近邻预测器的一种。集成方法是将一组弱分类器以一定的方式组合起来，形成一个强分类器。

构建单棵树的步骤：

1、有放回的随机采样，样本数占总数的2 / 3左右（1 - 1/e）。

2、对于每一个结点，随机选择m个特征，从中选择能提供最好划分的特征和划分点，在下一个结点重复前两个步骤直到所有训练样例都属于同一类。

随机森林的错误率依赖两件事。

1、树之间的相关性越大，整体错误率越高。

2、单棵树的错误率越高，整体错误率越高。

随机森林的优点：

1、容易理解和解释，树可以被可视化。

2、不需要太多的数据预处理工作，即不需要进行数据归一化，创造哑变量等操作。

3、隐含地创造了多个联合特征，并能够解决非线性问题。

4、和决策树模型，GBDT模型相比，随机森林模型不容易过拟合。

5、自带out-of-bag (oob)错误评估功能。

6、易于并行化。

7、可以处理无序类别特征。

随机森林的缺点：

1、不适合小样本，只适合大样本。

2、大多数情况下，RF模型的精度略低于GBDT模型的精度。

3、适合决策边界是矩形的，不适合对角线型的。

4、不适合处理稀疏特征。（之前参加阿里比赛时，我们加了一批稀疏特征后，预测效果下降得很厉害，后来把那些稀疏特征合并后，预测效果就变好了）

3.4 GBDT

GBDT的优点：

1、能够解决非线性问题。

2、精度较高，特别是在回归问题上，GBDT的效果通常要好于RF。

GBDT的缺点：

1、需要做一些数据预处理工作，例如特征归一化。

2、与RF模型相比，GBDT模型的参数较多，且模型对参数较敏感。

3、与RF模型相比，GBDT模型更容易过拟合。

4、不容易并行化。

4 验证

最常用的验证方式是交叉验证。有时为了方便，我们也可以进行一个简单的验证：把原始数据随机拆分成两部分，一部分作训练集，另一部分作验证集。先在训练集上训练出一个模型，然后将这个模型用在验证集上，根据验证集上的预测结果和“标准答案”就可以计算出准确率、召回率或者其他指标了。

参考资料

【1】https://en.wikipedia.org/wiki/Data_analysis

【2】http://blog.sciencenet.cn/blog-350729-662859.html

【3】https://en.wikipedia.org/wiki/Cluster_analysis

【4】http://www.jmlr.org/papers/volume3/guyon03a/guyon03a.pdf

【5】http://scikit-learn.org/stable/supervised_learning.html#supervised-learning

【6】http://breezedeus.github.io/2014/11/15/breezedeus-feature-processing.html

【7】http://www.cnblogs.com/LBSer/p/4440590.html

【8】http://www.quora.com/Support-Vector-Machines/What-is-the-difference-between-Linear-SVMs-and-Logistic-Regression

文章首发于我的CSDN博客。

网友评论

维真_dfb9:小姐姐我也读过这本书
插着扇子的石头:@维真_dfb9
还能耐心看书，很不错啊。
我大学的时候还挺爱看书的，后来就没那个耐心了。
维真_dfb9: @插着扇子的石头我全都看完了，笔记都记了好几本了。最难理解的是计算学习理论那一节
插着扇子的石头:其实，我没读过这本书，只是家中有这本书而已。
98860d333f23:这本机器学习需要Python基础吗
插着扇子的石头:@一个空想家我觉得《机器学习实战》那本书不错。但是我还是建议你可以参加一个大数据竞赛练练手。我以前零基础参加阿里大数据比赛时，还冲到过第一名。也是那时对机器学习和数据挖掘产生了浓厚的兴趣。后来回过头再看机器学习书时，以前好多看不懂的地方都看得懂了，领悟也比以前深刻很多。
98860d333f23:谢谢，我有一本实用机器学习，应该和这本差不多吧
插着扇子的石头:学机器学习不一定要会python，但我觉得python是实现机器学习算法最简单的语言。如果你之前有C的基础，再去学python，个人觉得你一周就能搞定。
安于此生__:终于认真的读了一篇。收获很大😍
插着扇子的石头:有收获就好！
不过理论还是要和实践搭配起来效果才好。
我是先学的理论，感觉没什么收获。
后来做机器学习项目，碰到实际问题，回过头研读机器学习、数据挖掘资料，印象就比较深了，以前很多看不懂的地方也能看懂了。
我觉得第一遍学机器学习的时候，可以学得粗糙一些，了解一些基本概念和常用模型，难的地方就跳过，以后再慢慢弄清楚。
九色喵:未来身边机器人朋友会越来做多
插着扇子的石头:我不是做机器人的
在做机器人的时候，会用到机器学习算法。
机器学习的应用面很广，我主要是用机器学习算法去训练大数据，得到一个预测分。
Dwyane_Coding:加油↖(^ω^)↗
插着扇子的石头: @DWade_Coding 一起加油！一起分享！“你有一个苹果，我有一个苹果，彼此交换一下，我们仍然是各有一个苹果；但你有一种思想，我有一种思想，彼此交换，我们就都有了两种思想，甚至更多。”
流川枫AI:写的挺好的，加油！
插着扇子的石头:@致Great
机器学习订阅方式：http://forum.ai100.com.cn/blog/thread/ml-signup/
机器学习日报（昨天的）：http://forum.ai100.com.cn/blog/thread/ml-2017-04-16/
我以前是用QQ号向hao@memect.com 发封空信，标题是 ” 订阅机器学习日报 ” 来订阅的。
致Great:@插着扇子的石头在哪里看
插着扇子的石头:嗯嗯，一起加油吧！
感觉机器学习越来越火了。随着机器学习工具和算法的普及，门槛也越来越低，会用模型进行训练预测的人越来越多。这既是机遇又是挑战。一方面要在实战项目中积累经验，另一方面也要利用闲暇时间去了解最新技术和琢磨已经成熟的技术。
我在好东西传送门订阅了机器学习日报，感觉质量还不错，有兴趣可以去看看哦。
jiang:棒棒哒！
jiang:@插着扇子的石头还有这样的故事，哈哈
插着扇子的石头:谢谢啊！
这篇文章是我刚进研三的暑假写的，当时是为了找工作准备的。
后来，我写毕业论文的相关技术介绍时，就把这篇文章改了改弄上去。结果评审老师在网上搜索时，发现我的这部分内容与网上的一篇文章重合度有点高，就在评审意见时把质疑提出来了。当时我吓坏了，马上给师兄说了这件事，他们让我好好跟老师解释。然后，我毕业答辩前就跟那个老师解释说是我以前发布的文章，老师也很好说话，就给我打了优秀分。