美文网首页数据蛙数据分析每周作业
Python -- 决策树字段选择指标

Python -- 决策树字段选择指标

作者: 2023开始学 | 来源:发表于2019-06-09 20:13 被阅读5次

决策树属于经典的十大数据挖掘算法之一,是一种类似于流程图的树结构,其规则就是if……then……的思想,可以用于数值型因变量的预测和离散型因变量的分类。

节点字段的选择

根节点和中间节点的字段选择,如果选择合理的话,决策树的分类效果将非常好,即叶节点的输出会比较 “ 纯净 ”。

"纯净"度该如何度量?

答:“纯净”度的衡量指标,即信息增益、信息增益率和基尼指数。

信息增益

原本是物理学中的一个定义,后来香农将其引申到了信息论领域,用来表示信息量的大小。

信息量越大(分类越不“纯净”),对应的熵值就越大,反之亦然。

例子: 某公司部门经理的两句话:“今年我们部门有一个名额可以出国访问”和“今年我们部门可以出国访问”。对于第一句话来说,员工之间就开始推测谁可能出国,想象空间比较多,因为每个员工都有出国的机会,对应的信息量很大,引申到熵,其熵值就会很大;而第二句话来说,大家就不会讨论谁去的问题,因为这件事是确定所有人都去,没有其他可能性,故对应的信息量就会很低,熵值也会很低。

决策树中的算法选择根节点或中间节点的字段时所使用的指标:

ID3算法 信息增益指标
C4.5算法 信息增益率指标
CART算法(也称分类回归树) 基尼指数

信息熵的计算公式:

3.jpg 4.jpg

信息增益

决策树在生长过程中,从根节点到最后的叶节点,信息熵是下降的过程,每一步下降的量就称为信息增益。

信息增益的计算公式:GainA( D )= H( D ) - H( D|A )

由公式可知,对于已知的事件A来说,事件D的信息增益就是D的信息熵与A事件下D的条件熵之差,事件A对事件的影响越大,条件熵H( D|A )就会越小(在事件A的影响下,事件D被划分得越“纯净”),体现在信息增益上就是差值越大,进而说明事件D的信息熵下降得越多。所以,在根节点或中间节点的变量选择过程中,就是挑选出各自变量下因变量的信息增益最大的。

——————————————————————————————————————

信息增益率

信息增益指标有一个非常明显的缺点,即信息增益会偏向于取值较多的字段。为了克服这个缺点,可以使用信息增益率。

3.jpg
结论:

如果用于分类的数据集中各离散型自变量的取值个数没有太大差异,那么信息增益指标与信息增益率指标在选择变量过程中并没有太大的差异,所以它们之间没有好坏之分,只是适用的数据集不一致。

——————————————————————————————————————

基尼指数

C4.5算法和ID3算法一致,都只能针对离散型因变量进行分类。为了能够让决策树预测连续性的因变量,Breiman等人在1984年提出了CART算法,该算法也称为分类回归树,它使用的字段选择指标是基尼指数。

2.jpg 1.jpg
结论:

以上即为三种决策树节点变量的选择方法,其中ID3和C4.5都属于多分支的决策树,CART则是二分支的决策树,在树生长完成后,最终根据叶节点中的样本数据决定预测结果。对于离散型的分类问题而言,叶节点中哪一类样本量最多,则该叶节点就代表了哪一类,对于数值型的预测问题,则将叶节点中的样本均值作为该节点的预测值。

相关文章

  • Python -- 决策树字段选择指标

    决策树属于经典的十大数据挖掘算法之一,是一种类似于流程图的树结构,其规则就是if……then……的思想,可以用于数...

  • 统计学习方法思路疏导—决策树

    决策树 算法过程 特征选择 生成决策树 决策树兼职 特征选择 选择下面 2 指标作为特征选择的依据 信息增益:使用...

  • Day3|Python数据分析与挖掘实战|分类与预测:决策树

    分类与预测——决策树 内容提要 决策树的基本思想三类信息混杂度的指标 建立决策树分裂属性及其条件的选择何时结束分裂...

  • 决策树算法

    运行平台:Windows Python版本:Python3.x IDE:pycharm 一、决策树 决策树是什么?...

  • 互联网运营数据分析技能点

    数据分析的指标要记录的数据字段了解与业务增长相关的指标了解产品拉新,活跃,留存,转化,传播指标的意义会选择数据指标...

  • 2020-05-19 第十章 决策树与随机森林(python)

    01 决策树节点字段的选择 模型介绍 决策树属于经典的十大数据挖掘算法之一,是一种类似于流程图的树结构,其规则就是...

  • [机器学习]决策树

    决策树 @(技术博客)[机器学习, 决策树, python] 学习决策树首先要搞清楚决策树是什么(what),在弄...

  • 决策树

    转自微信公众号:机器学习算法与Python学习 决策树 决策树很重要的一点就是选择一个属性进行分支,因此要注意一下...

  • 01-26

    今天参考教程的泰坦尼克生存预测样例来运用决策树。利用分类器的特征选择对乘客的Pclass,Sex,等字段进行处理,...

  • ID3/C4.5/CART决策树算法推导

    目录 一、ID3决策树 二、C4.5决策树 三、CART决策树 四、总结 信息熵——度量样本集合纯度最常用一种指标...

网友评论

    本文标题:Python -- 决策树字段选择指标

    本文链接:https://www.haomeiwen.com/subject/kfanxctx.html