美文网首页
Decision Tree(2018-05-05)

Decision Tree(2018-05-05)

作者: 叨逼叨小马甲 | 来源:发表于2018-05-05 23:18 被阅读0次
    1. 决策树是一种非参数模型,用于分类和回归。
    2. 如何构造决策树?步骤
    • 选择根节点特性
    • 分割子集
    • 递归分割每个分支
    1. 如何选择最佳属性作为根节点?
    • 思想:(一般是最佳的属性,即通过该属性很够明显的分割数据集)
    • 使用一些metrics来检测根节点是否最佳,例如: information gain, information gain rate, gini Index基尼系数
    1. Entropy
    • Entropy熵:用来检测无序性或者不确定性,熵越高,越无序不能确定。
    • 低概率事件有更高信息熵,而高概率事件的信息熵较低;
    • 当某件事情一定会发生时,熵为0;即一定组成的是冰块的时候,此时熵为0。


      image.png
    image.png image.png
    1. Information gain信息增益
    • 定义:熵的差值


      image.png
    • 构造决策树,选择最佳属性时,选择信息增益最大的属性

    1. information gain ratio
    • 信息增益率避免的使用信息增益时遇到的bias问题。


      image.png
    • 信息增益率越大,越能作为分隔属性
    1. Gini index


      image.png
    • 属性导致的分割越纯净(即更易于分为一个类),则gini值为0.
    1. 决策树优点
    • 易于理解和解释
    • 构造决策树只需要很少的数据
    • 能够处理连续的回归和分类问题
    • 内涵特征选择,即拥有信息增益,基尼系数等measures来作为选择好的属性。
    1. 决策树缺点
    • 易于过度拟合
    • 如果数据不平衡,会产生biased的树
    • 不稳定(不过决策树的不稳定性能通过随机森林来避免)
    • 滥用决策树不能保证产生的模型是个好的模型

    相关文章

      网友评论

          本文标题:Decision Tree(2018-05-05)

          本文链接:https://www.haomeiwen.com/subject/amnerftx.html