美文网首页
随机森林用于特征选择

随机森林用于特征选择

作者: 山的那边是什么_ | 来源:发表于2016-04-25 19:46 被阅读3289次

来源:http://www.cnblogs.com/justcxtoworld/p/3447231.html

摘要:随机森林介绍中提到了随机森林一个重要特征:能够计算单个特征变量的重要性。并且这一特征在很多方面能够得到应用,例如在银行贷款业务中能否正确的评估一个企业的信用度,关系到是否能够有效地回收贷款。但是信用评估模型的数据特征有很多,其中不乏有很多噪音,所以需要计算出每一个特征的重要性并对这些特征进行一个排序,进而可以从所有特征中选择出重要性靠前的特征。

一:特征重要性

在随机森林中某个特征X的重要性的计算方法如下:

1:对于随机森林中的每一颗决策树,使用相应的OOB(袋外数据)数据来计算它的袋外数据误差,记为errOOB1.

2:  随机地对袋外数据OOB所有样本的特征X加入噪声干扰(就可以随机的改变样本在特征X处的值),再次计算它的袋外数据误差,记为errOOB2.

3:假设随机森林中有Ntree棵树,那么对于特征X的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用这个表达式来作为相应特征的重要性的度量值是因为:若给某个特征随机加入噪声之后,袋外的准确率大幅度降低,则说明这个特征对于样本的分类结果影响很大,也就是说它的重要程度比较高。

二:特征选择

在论文Variable Selection using Random Forests中详细的论述了基于随机森林的特征选择方法,这里我们进行一些回顾。

首先特征选择的目标有两个:

1:找到与应变量高度相关的特征变量。

2:选择出数目较少的特征变量并且能够充分的预测应变量的结果。

其次一般特征选择的步骤为:

1:初步估计和排序

a)对随机森林中的特征变量按照VI(Variable Importance)降序排序。

b)确定删除比例,从当前的特征变量中剔除相应比例不重要的指标,从而得到一个新的特征集。

c)用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序。

d)重复以上步骤,直到剩下m个特征。

2:根据1中得到的每个特征集和它们建立起来的随机森林,计算对应的袋外误差率(OOB err),将袋外误差率最低的特征集作为最后选定的特征集。

快速了看了上面的论文

特征重要性的评价有:分类的的错误率,回归时是均方误差MSE,信息增益,基尼系数

相关文章

  • 随机森林用于特征选择

    来源:http://www.cnblogs.com/justcxtoworld/p/3447231.html 摘要...

  • 决策树

    例子1 打网球 抓重点:每个特征的影响力 例子2 选择属性 例子3 特征选择特征选择2特征选择3随机森林选择特征...

  • 机器学习(九) 随机森林

    随机森林是在Bagging策略的基础上进行修改后的一种算法。 随机:数据采样随机,特征选择随机 森林:很多个决策树...

  • 集成算法分类及原理

    1、Bagging模型简单地说是并行训练一堆分类型。典型代表:随机森林。其中,随机指:数据采样随机和特征选择随机;...

  • 【转】随机森林做特征选择

    特征选择方法中,有一种方法是利用随机森林,进行特征的重要性度量,选择重要性较高的特征。下面对如何计算重要性进行说明...

  • 数据挖掘实践任务2

    任务2: 特征工程(2天) 特征衍生特征挑选:分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理 结...

  • 特征筛选(随机森林)

    随机森林能够度量每个特征的重要性,我们可以依据这个重要性指标进而选择最重要的特征。sklearn中已经实现了用随机...

  • 何为决策树和随机森林?

    随机森林 定义:随机森林或随机决策森林是用于分类、回归和其他任务的集成学习方法。 名字由来:随机森林就是使用随机的...

  • (十四、)极限森林

    一、极限森林 特征随机参数随机分裂随机因为分裂是随机的,所以就不需要样本是随机的了 随机森林和极限森林不同之处:随...

  • 算法笔记(9)-随机森林算法及Python代码实现

    随机森林也被称为随机决策森林,是一种集合学习方法,既可以用于分类,也可以用于回归。随机森林把不同的几棵决策树打包到...

网友评论

      本文标题:随机森林用于特征选择

      本文链接:https://www.haomeiwen.com/subject/ygkqrttx.html