美文网首页
随机森林

随机森林

作者: To_QT | 来源:发表于2019-09-29 09:58 被阅读0次

0. 决策树的不足

在机器学习方法中,任何一次实现都是基于一个特定的数据集,而这个数据集可能只是训练集中的一次随机抽样,所以才有了所谓的10折交叉验证等方法。在不使用该方法的情况下,很多机器学习算法受到了这种随机性的影响,因此,得到的模型也具有一定的偶然性。而随机森林通过与该方式结合,在一定程度提高了准确性和推广能力。


1. 自助法

自助法

2. 随机森林

2.1 算法流程

  1. 对样本数据进行自举法重采样,得到多个样本集,即:每次从原来的N个训练样本中又放回的随机抽取N个样本(包括可能重复的样本)。
  2. 利用重采样样本集作为训练样本构造一个决策树,在构造决策树的过程中,每次从所有候选特征中随机选择m个特征(不一定要考虑所有的特征,这是与普通决策树的区别所在),作为当前节点下决策的备选特征,从该特征中进行划分。
  3. 重复步骤1,,2,得到一定的数量的决策树后,通过一种方法对这些树的输出进行投票,得到票数最多的类作为最终的输出结果。

2.2 模型评估与参数选择

在第一节中提到,自助法大概有1/3的数据无法被用于训练,于是,我们可通过包外估计对算流程步骤2中的m值进行选择,确定最佳的m值。


3. 缺失数据

一般来说,缺失的特征可能会出现在两种情况下:

  1. 在训练集中有部分数据的特征值缺失。
  2. 在待分类的样本中,有部分数据的特征值缺失。

3.1 训练数据特征缺失

1. 根据完整样本填充数据

  • 离散值:选取该特征中所占比例较大的特征数据。
  • 连续值:取该特征的中位数或是均值。
    在这里插入图片描述
    在上图中,第四条数据的Blocked Arteries和Weight特征缺失。根据前三条数据的信息,在特征Blocked ArteriesNo最多,Weight中位数为180,因此,填补数据为:
    在这里插入图片描述

2. 构造随机森林,并计算所有数据在随机森林模型上的输出结果,构造邻近矩阵(proximity)记录每条数据之间的相似程度。[图片上传失败...(image-8b7e94-1569722308083)]

由于第三条数据和第四条数据结束与同一叶子节点,于是构造的邻近矩阵为:
[图片上传失败...(image-c1d711-1569722308083)]自助法
同样的,对于第二个决策树,假设有:
[图片上传失败...(image-9b562b-1569722308083)]
于是更新矩阵为:
[图片上传失败...(image-38150e-1569722308083)]
依次类推:
假设经过10个决策树后,邻近矩阵的结果为:
[图片上传失败...(image-7b05f5-1569722308083)]
相似矩阵中每个元素均除以决策树个数后,结果如下:
[图片上传失败...(image-22284-1569722308083)]

3. 计算每个特征值的权重

特征值的权重计算公式为:
w_i^j=p_i*\frac{M_i}{\sum M_i} \tag{3.1}
在公式(3.1)中,w_i^j代表第j个特征的第i个特征值,p_i代表第i个特征值在完整数据中所占的比例,M_i代表第i个特征的近似程度。
举个栗子:在特征Blocked Arteries中,有yesno两个特征值,其中:
对于yes来说:

在这里插入图片描述
对于no来说: 在这里插入图片描述
所以:,,因此,为no的可能性更大些。
同样的,对于Weight有:
在这里插入图片描述
最后的插补数据结果如下:
在这里插入图片描述

4. 重复步骤1~3,直到所有数据不再变化为止。

3.2 测试数据缺失

[图片上传失败...(image-e4172e-1569722308083)]

1. 假定标签值的取值

在这里插入图片描述

2. 假定特征值的取值

在这里插入图片描述

3.在模型中运行该数据,统计结果

在决策树中,输出结果即可确定目标值的缺失特征值以及标签值

4. 参考文献

  • 《西瓜书》
  • 《模式识别(第三版)》

相关文章

  • 何为决策树和随机森林?

    随机森林 定义:随机森林或随机决策森林是用于分类、回归和其他任务的集成学习方法。 名字由来:随机森林就是使用随机的...

  • 集成学习之Bagging和RF

    一、什么是随机森林 二、随机森林的两个随机 三、随机森林算法过程 四、为什么如此受欢迎 五、随机森林算法的优缺点 ...

  • (十四、)极限森林

    一、极限森林 特征随机参数随机分裂随机因为分裂是随机的,所以就不需要样本是随机的了 随机森林和极限森林不同之处:随...

  • 随机森林

    https://www.cnblogs.com/fionacai/p/5894142.htmlhttps://ww...

  • 随机森林

    先上重点 GBDT和随机森林虽然都是决策树的组合算法,但是两者的训练过程还是很不相同的。 GBDT训练是每次一棵,...

  • 随机森林

    算法过程 N个训练样本,M个特征 选定特征数目m作为每个决策树的特征,m<

  • 随机森林

    1、什么是随机森林? 随机森林就是用随机的方式建立一个森林,在森林里有很多决策树组成,并且每一棵决策树之间是没有关...

  • 随机森林

    随机森林(RandomForest), 可用于分类或者回归, 相比较决策树的算法, 随机森林是由多棵CART(Cl...

  • 随机森林

    随机森林是一种分类算法,实战中往往比较有用。 简介:如其名,算法里面有一些随机性,另外,主要的思想是很多的决策树(...

  • 随机森林

    随机森林指的是利用多棵树对样本进行训练并预测的一种分类器 01、前言 宠物店里有猫和狗两种宠物,每个动物都有他编号...

网友评论

      本文标题:随机森林

      本文链接:https://www.haomeiwen.com/subject/aqtfpctx.html