随机森林

作者: 徐超Change | 来源:发表于2017-06-29 20:28 被阅读9次

随机森林是一种分类算法，实战中往往比较有用。

简介：如其名，算法里面有一些随机性，另外，主要的思想是很多的决策树（形成森林）的分类结果加权，得到最后的分类结果。

步骤：
1.对每个决策树来说，求一个熵最大化的问题，即信息最大化，尽可能消除随机不确定性。
2.集成学习：就是多个分类器的加权（python里面的scikit）

具体来说，这里面有两个随机：
1.对每个决策树的训练样本有放回的随机采样（bootstrap sample），即每个树的样本都不同，但有重合部分；
2.每次树分裂时，只考虑样本M个特征维度中的很小的一部分，m（m<<M）个，选择这m个中的最优的

以上可以看出，这里只有一个参数m需要调：m减小，树的相关性和分类能力都减弱，相关性越大，最后的错误率越大；分类能力越高，错误率越小。所以m是一个权衡。

网友评论

本文标题：随机森林

本文链接：https://www.haomeiwen.com/subject/uxkvcxtx.html

随机森林