Random Forest(随机森林)算法是通过训练多个决策树,生成模型,然后综合利用多个决策树进行分类。
1. 单棵决策树的构建:
(1)训练样例的选择
令N为训练样例的个数,则单棵决策树的输入样例的个数为N个从训练集中有放回的随机抽取N个训练样例。
(2)构建决策树
令训练样例的输入特征的个数为M,我们在每颗决策树的每个节点上进行分裂时,从M个输入特征里随机选择m个输入特征,且m远远小于M。然后从这m个输入特征里选择一个最好的进行分裂。m在构建决策树的过程中不会改变。
构建决策树的算法主要有以下三种,且根据决策树的输出结果,决策树可以分为分类树和回归树,分类树输出的结果为具体的类别,而回归树输出的结果为一个确定的数值。其中 ID3 和 C4.5 是分类树, CART 是分类回归树,且 在ID3 和 C4.5 中,特征(属性)只能选一次,而 CART 没有这样的要求:
a. ID3 在决策树生成过程中,以信息增益为特征选择的准则。
b. C4.5 在决策树生成过程中,以信息增益比为特征选择的准则。
c. CART 对回归树用平方误差最小化准则,对分类树用基尼指数(Gini index)最小化准则,进行特征选择,生成二叉树。
例:
图1熵(Entropy)的计算公式为:
熵越大,越复杂(混乱程度越高,数据纯度越低越不好分)
图1左中的信息增益InfoGain1 及信息增益比 InfoRatio1为:
信息增益比为:
信息增益比越大,说明根据这些特征(属性)使得分类更简单(即是我们想要的效果,信息增益比越大说明H2,H3越小,越小说明分类更简单)
同理,图1右的信息增益 InfoGain2 及 InfoRatio2 分别为:
由于 InfoGain1 > InfoGain2, 所以由ID3算法选择第一种方法;
由于InfoRatio1 > InfoRatio2 ,所以根据C4.5算法选择第一种方法
基尼指数:
基尼值越大,数据越不纯(不好分)
(3)停止分裂的条件
a. 最小节点数
当节点的数据量小于一个指定的数量时,不继续分裂。两个原因:一是数据量较少时,再做分裂容易强化噪声数据的作用;二是降低树生长的复杂性。提前结束分裂一定程度上有利于降低过拟合的影响。
b. 熵或者基尼值小于阀值
由上述可知,熵和基尼值的大小表示数据的复杂程度,当熵或者基尼值过小时,表示数据的纯度比较大,如果熵或者基尼值小于一定程度数,节点停止分裂。
c. 决策树的深度达到指定的条件
节点的深度可以理解为节点与决策树跟节点的距离,如根节点的子节点的深度为1,因为这些节点与跟节点的距离为1,子节点的深度要比父节点的深度大1。决策树的深度是所有叶子节点的最大深度,当深度到达指定的上限大小时,停止分裂。
d. 所有特征已经使用完毕,不能继续进行分裂
2. 随机森林的分类结果
按照1生成t个决策树之后,对于每个新的测试样例,综合多个决策树的分类结果来作为随机森林的分类结果。
(1)目标特征为数字类型:取t个决策树的平均值作为分类结果。
(2)目标特征为类别类型:少数服从多数,取单棵树分类结果最多的那个类别作为整个随机森林的分类结果。
3. 分类效果的评价
在随机森林中,无需交叉验证来评价其分类的准确性,随机森林自带OOB(out-of-bag)错误估计:
OOB:在构造单棵决策树时我们只是随机有放回的抽取了N个样例,所以可以用没有抽取到的样例来测试这棵决策树的分类准确性,这些样例大概占总样例数目的三分之一。
所以对于每个样例j,都有大约三分之一的决策树(记为SetT(j))在构造时没用到该样例,我们就用这些决策树来对这个样例进行分类。我们对于所有的训练样例 j,用SetT(j)中的树组成的森林对其分类,然后看其分类结果和实际的类别是否相等,不相等的样例所占的比例就是OOB错误估计。OOB错误估计被证明是无偏的。
网友评论