基于随机森林识别特征重要性(翻译)

作者: 三猫后端 | 来源:发表于2018-01-19 14:41 被阅读40次

原文链接:基于随机森林识别特征重要性(翻译)

微信公众号:机器学习养成记    搜索添加微信公众号:chenchenwings


博主Slav Ivanov 的文章《Identifying churn drivers with Random Forests 》部分内容翻译。博主有一款自己的产品RetainKit,用AI和机器学习方法,帮助SaaS相关企业解决客户流失问题。如对他们对产品有兴趣,可以访问下面的链接进行更多了解:https://www.producthunt.com/upcoming/retainkit。

随机森林

随机森林是一个集成算法,通过生成很多棵树,最终以投票或算均值的方式得到结果。这篇文章可视为对随机森林中特征重要性估计的主要方法的回顾。

特征重要性

决策树类算法的特点之一就是有良好的模型解释性。我们可以分析出得到相应结果的数据原因,也可以得到哪些特征比较重要。下面来回顾一下得到这些的主要方法:

1,平均不纯度减少(MDI):表示每个特征对误差的平均减少程度。《统计学习要素》的作者非常简洁的解释了这种方法:“在每一棵树的每一个分裂中,分裂准则的改进是对分裂变量的重要度量,并分别在森林中的所有树上为每个变量累积。”让我们详细说明一下这段话的意思。如我们所知,决策树根据一些规则,将结点分裂为两个子结点。每次分裂都是针对一个可以使误差最小化的特征。误差的计算可以使均方误差,基尼纯度,信息增益,或者其他一些根据需要设置的指标。我们总结了所有树上,这个特定变量得到的所有分割使误差减少的情况。在sk-learn包中,每次分裂带来的提升效果,是由到达节点的样本数加权得到的,然后对特征的重要性进行归一化处理。值得注意的是,这种方法往往高估了具有许多类别的特性的重要性。这里描述了一种纠正MDI偏置的替代方法。

2,平均精确率减少(MDA):打乱每个特征的特征值顺序,并且度量顺序变动对模型的精确率的影响。这种巧妙的方法利用袋外数据来计算重要性。OOB数据是训练集的一部分,但不用于训练这种特殊的树。用OOB数据计算出基本误差,然后对每个特征,随机打乱顺序。实际上,这就像用相同的分布使用随机数据替换变量一样,并忽视树对该特性的已有知识。对于不重要的特征来说,打乱顺序对模型的精确率影响不会太大,但是对于重要的特征来说,打乱顺序就会降低模型的精确率。

3,Boruta:重复删除比最佳特征差的特征。主要思想就是检查比随机噪声重要的特征。首先我们要建立影子变量将所有特征混合。这就像在“减少平均精度”中描述的变量打乱一样,但这个方法是同时对所有变量进行操作。我们将影子特征加入到原有特征中,然后用随机森林进行训练。使用上述介绍的MDA或者MDI方法,我们可以看到哪个原始变量比影子变量重要。如果不相关的特征较少,则重要性度量更精确。因此,上述过程重复到预定义的次数,或者直到达到最小特征计数为止。这个算法从最不相关的特征开始删除,因此我们可以用删除顺序作为特征重要性排序。Boruta是一个“相关”的特征选择算法。这与通过确定最佳预测精度得到的最小数据集方法有细微的区别。正如该方法的作者所说的那样:“这个算法尝试找到所有对预测结果有用的特征,而不是找到一个使误差最小的特征集合。”


推荐文章:

用机器学习更快了解用户(翻译)

k折交叉验证(R语言)

聚类(二):k-means算法(R&python)

小案例(一):商业街抽奖

小案例(二):面包是不是变轻了

小案例(三):调查问卷

小案例(四):销售额下滑


微信公众号:机器学习养成记    搜索添加微信公众号:chenchenwings

扫描二维码,关注我们。

如需转载,请在开篇显著位置注明作者和出处,并在文末放置机器学习养成记二维码和添加原文链接。

快来关注我们吧!

相关文章

  • 基于随机森林识别特征重要性(翻译)

    原文链接:基于随机森林识别特征重要性(翻译) 微信公众号:机器学习养成记 搜索添加微信公众号:chenchenw...

  • 特征筛选(随机森林)

    随机森林能够度量每个特征的重要性,我们可以依据这个重要性指标进而选择最重要的特征。sklearn中已经实现了用随机...

  • 【转】随机森林做特征选择

    特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明...

  • 基于随机森林的Shadowsocks流量检测

    基于随机森林的Shadowsocks流量检测 译者:fengsehng 翻译前言 随着机器学习技术的火热,国内不少...

  • 使用随机森林判定特征的重要性

    随机森林算法是我们经常使用到的一种集成式的机器学习算法,由多棵决策树组合而成。那么怎么使用随机森林判定特征的重要性...

  • (十四、)极限森林

    一、极限森林 特征随机参数随机分裂随机因为分裂是随机的,所以就不需要样本是随机的了 随机森林和极限森林不同之处:随...

  • 随机森林如何评估特征重要性

    序 集成学习模型的一大特点是可以输出特征重要性,特征重要性能够在一定程度上辅助我们对特征进行筛选,从而使得模型的鲁...

  • 机器学习(九) 随机森林

    随机森林是在Bagging策略的基础上进行修改后的一种算法。 随机:数据采样随机,特征选择随机 森林:很多个决策树...

  • 基于深度学习的人脸识别

    1. 传统人脸识别方法 基于模板匹配 基于几何特征 基于代数特征 (PCA,LDA,HMM算法) 基于人工神经网络...

  • 字符识别 笔记

    字符识别方法大致分两种 1 基于结构特征的方法 2基于统计特征的方法 传统的字符识别算法流程 待识别样本输入➡️预...

网友评论

    本文标题:基于随机森林识别特征重要性(翻译)

    本文链接:https://www.haomeiwen.com/subject/iniooxtx.html