学习决策树,随机森林的笔记

作者: ruihan_xia | 来源:发表于2018-06-04 18:33 被阅读0次

Q1: 决策树是如何找到最优的分类特征的?
A: 通过计算"信息增益","信息增益比",数值大的特征,是用作划分的特征

Q2: 信息增益是如何计算的?
A: 计算出数据集的"熵"和使用了某一个特征的"条件熵". 再用"熵"减去"条件熵"得到

Q3: 如何理解熵?
A: 熵表示离散随机变量的不确定性.
也就是说,熵的大小,取决于随机变量发生的概率.

Q4:如何理解条件熵
A:当某个特征确定后,求和(该特征的某个特征值对应的数据集的熵 * 该特征的某个特征值出现的概率

Q5:找到特征后,从特征的哪一个点划分?

Q6:在sklearn中,决策时使用的是什么算法?

Q7： CART的进行分类，剪枝的原理是什么？

前提条件：对于一个节点t和这个节点的二叉树子节点Tt，我们能够计算出T,Tt考虑了“复杂度”的损失函数。我们总能够找到一个α，使得T，Tt的考虑了损失函数的α相同。 α的意义是权衡模型的拟合程度与模型的复杂度。当T，Tt的损失函数相同时，我们更倾向选择简单的决策树。
我们对整棵树T0，考虑每一个节点，得到了最小的α。将α对应的分支减掉，作为决策树T1.
再去看第二小的α，将对应的分支减掉，得到决策树T2.如此得到许多T3,T4,Tn许多决策树
利用交叉验证法，利用测试数据集，去检验哪一棵子树靠谱，选择最优的子树。

Q8：CART原理说的太特么啰嗦了，简单点说呢

CART分为生成树和剪枝。

生成树只会生成二叉树，划分二叉树的标准是，去寻找”某个特征，某个数据“使得信息不确定（基尼系数）最小。

剪枝是考虑模型的拟合程度和模型的复杂度，根据复杂度不同，获得了多颗子树。
利用交叉验证法，找到最优的子树。

Q9：随机森林,extra-tree的原理是什么?

Q10: 随机森林的随机,是哪两重随机?

Q11: 可视化决策树过程?

image.png

网友评论

本文标题：学习决策树,随机森林的笔记

本文链接：https://www.haomeiwen.com/subject/qciysftx.html

学习决策树,随机森林的笔记