决策树的核心思想是分域,
无论是做回归还是分类。
分类方面,决策数的参考变量是 信息增益。
信息熵:数据的无序程度,信息熵越大,数据不确定性越大。
信息增益:经验信息熵减去经验条件熵,信息增益越大,说明条件特征越能减小数据的不确定性。
因此,猜想,信息增益可以作为feature selection的一种手段。
决策树中的Id3算法一般用信息增益作为分割判断依据。
信息增益比:信息增益的缺点是特征数据的分布不一,数据多的特征数据增益就会偏大一点,因此,为了减少这些误差,加一个分母,类似与归一化的操作,让数据停留在同一标准下进行比较。
决策树中的C4.5算法采用的便是信息增益比。
gini系数:和信息熵类似的一个变量。
gini系数越大,表示数据不确定性越大。
CART算法采用gini系数进行判断。
每进行一次分隔都会计算一次最优特征,采用递归算法。
回归方面,决策数的参考变量是MSE。
对每个点进行尝试分隔,计算left和right的MSE,结束后,在两侧MSE之和中找出最小的MSE对应的点的位置。左侧取左侧的平均,右侧取右侧的平均,树的层数可以通过设定阈值MSE来实现。迭代算法中知道满足阈值精度停止。这里回归采用了二叉树的思想。
网友评论