美文网首页
机器学习之随机森林, 2022-06-23

机器学习之随机森林, 2022-06-23

作者: Mc杰夫 | 来源:发表于2022-06-23 13:55 被阅读0次

(2022.06.23)

概念

bagging:booststrap aggregating,多个分类器做预测,且分类器之间并行,投票决定结果;不同分类器k的数据来自对初始数据的有放回采样(sampling with replacement),这样保证了每个分类器得到的数据集不同,呈现随机性;大约有36.8%的数据没有被采样到,这些数据被称为袋外数据Out-of-bag,可以用于测试模型的泛化能力。
boosting:多个分类器做预测,且分类器之间串行,最终结果作为结果;对于训练集中的每个样本建立权值wi,表示对每个样本的关注度。当某个样本被误分类的概率很高时,需要加大对该样本的权值。
进行迭代的过程中,每一步迭代都是一个弱分类器。我们需要用某种策略将其组合,作为最终模型。(例如AdaBoost给每个弱分类器一个权值,将其线性组合最为最终分类器。误差越小的弱分类器,权值越大)

上面提到,每次采样大约有36.8%的数据没有被采样到,该比例的计算如下:
样本数量为m,每次抽取n个,累计抽取p次,考虑到有放回,则每一次抽取之前的样本量都是m,则一个样本在k次之后没有被抽到的概率是p = (1-\frac{n}{m})^k

随机森林Random Forest

RF基于bagging,做了一些修改。

  • RF使用弱分类器,i.e., CART决策树,即CART+bagging=RF
  • 随机性:除了bagging对数据的采样保证了不同分类器输入数据的随机性,每棵树还会对特征进行采样,一般是默认特征总数m的开方\sqrt m,保证了特征的随机性
  • RF会选择采集和训练集样本数一样个数的样本
  • 无需防止过拟合:数据和特征两方面已经保证了随机性,不需要额外剪枝,也可得到良好的泛化和抗过拟合的能力(low variance)。代价是对训练集的拟合程度较差,模型的偏会略大(high bias)。

Reference

1 简书HeartGo,boosting和bagging的区别
2 简书奥拉基尔,随机森林

相关文章

  • 机器学习之随机森林, 2022-06-23

    (2022.06.23) 概念 bagging:booststrap aggregating,多个分类器做预测,且...

  • 机器学习之随机森林

    开篇先看个风险森林图吧~~ 1.准备输入数据 2.挑选感兴趣的基因构建coxph模型 出自文章Integrated...

  • 机器学习之-随机森林

    集成学习bagging-随机森林:

  • 随机森林算法

    1.随机森林使用背景 1.1随机森林定义 随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个...

  • Python机器学习之随机森林

    引言  随机森林的原理网上有一大堆,作为入门小白,下面来根据教材敲两个随机森林的代码。随机森林有两个比较重要的参数...

  • 机器学习之随机森林(二)

    在上一篇文章中我们简单给大家介绍了关于机器学习的知识,顺便也讲了讲机器学习误差的原因。其实不管是什么算法都是有方差...

  • 机器学习-随机森林

    一.背景知识 决策树局限:决策树的构建要利用大量的数据,但是当用这个构建好的决策树来对一批新的数据进行分类时,决策...

  • 机器学习算法 - 随机森林之决策树初探(1)

    随机森林是基于集体智慧的一个机器学习算法,也是目前最好的机器学习算法之一。 随机森林实际是一堆决策树的组合(正如其...

  • 机器学习之随机森林(简单理解)

    之前简单介绍了决策树,这篇文章简单介绍一下随机森林以及优缺点。 集成学习 通过构建并结合多个分类器来完成学习任务。...

  • 机器学习 之 集成学习和随机森林

    如果你合并了一组分类器的预测(像分类或者回归),会得到一个比单一分类器更好的预测结果。这一组分类器就叫做集成。因此...

网友评论

      本文标题:机器学习之随机森林, 2022-06-23

      本文链接:https://www.haomeiwen.com/subject/njopvrtx.html