C4.5算法详解（非常仔细）

C4.5算法详解（非常仔细）

作者: BinJiang | 来源:发表于2019-10-03 00:11 被阅读0次

C4.5算法详解（非常仔细）
十大经典数据挖掘算法详解
决策树简记
机器学习算法实现（二）：C4.5
十大机器学习算法的优缺点
C5.0算法
第八章数据决策分析算法——基于C4.5算法的决策树
机器学习 && 深度学习
C4.5算法
学习笔记二：数据挖掘最佳路径--摘自陈旸课程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/zjsghww/article/details/51638126

首先，C4.5是决策树算法的一种。决策树算法作为一种分类算法，目标就是将具有p维特征的n个样本分到c个类别中去。相当于做一个投影，c=f(n)，将样本经过一种变换赋予一种类别标签。决策树为了达到这一目的，可以把分类的过程表示成一棵树，每次通过选择一个特征pi来进行分叉。

那么怎样选择分叉的特征呢？每一次分叉选择哪个特征对样本进行划分可以最快最准确的对样本分类呢？不同的决策树算法有着不同的特征选择方案。

ID3用信息增益，C4.5用信息增益率，CART用gini系数

下面主要针对C4.5算法，我们用一个例子来计算一下。

1. 计算类别信息熵

类别信息熵表示的是所有样本中各种类别出现的不确定性之和。根据熵的概念，熵越大，不确定性就越大，把事情搞清楚所需要的信息量就越多。

2. 计算每个属性的信息熵

每个属性的信息熵相当于一种条件熵。他表示的是在某种属性的条件下，各种类别出现的不确定性之和。属性的信息熵越大，表示这个属性中拥有的样本类别越不“纯”。

3. 计算信息增益

信息增益的 = 熵 - 条件熵，在这里就是类别信息熵 - 属性信息熵，它表示的是信息不确定性减少的程度。如果一个属性的信息增益越大，就表示用这个属性进行样本划分可以更好的减少划分后样本的不确定性，当然，选择该属性就可以更快更好地完成我们的分类目标。

信息增益就是ID3算法的特征选择指标。

但是我们假设这样的情况，每个属性中每种类别都只有一个样本，那这样属性信息熵就等于零，根据信息增益就无法选择出有效分类特征。所以，C4.5选择使用信息增益率对ID3进行改进。

4.计算属性分裂信息度

用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息，我们把这些信息称为属性的内在信息（instrisic information）。信息增益率用信息增益 / 内在信息，会导致属性的重要性随着内在信息的增大而减小（也就是说，如果这个属性本身不确定性就很大，那我就越不倾向于选取它），这样算是对单纯用信息增益有所补偿。

5.计算信息增益率

（下面写错了。。应该是IGR = Gain / H ）

天气的信息增益率最高，选择天气为分裂属性。发现分裂了之后，天气是“阴”的条件下，类别是”纯“的，所以把它定义为叶子节点，选择不“纯”的结点继续分裂。

6. 在子结点当中重复过程1~5。

以天气=“雨”的子结点为例：

1. 计算类别信息熵

2.计算每个属性的信息熵

3.计算信息增益

4.计算属性分裂信息度量

(图错了)

5.计算信息增益率

（下面写错了。。应该是IGR = Gain / H ）

风速属性的信息增益率最高，所以选择风速作为分裂结点，分裂之后，发现子结点都是纯的，因此子节点均为叶子节点，分裂结束。

至此，这个数据集上C4.5的计算过程就算完成了，一棵树也构建出来了。

现在我们来总结一下C4.5的算法流程：

相关文章

C4.5算法详解（非常仔细）
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接：...
十大经典数据挖掘算法详解
【十大经典数据挖掘算法详解】以下是个人觉得算法讲解比较清晰易懂的博客！ C4.5 K-Means SVM Apr...
决策树简记
具有不同划分准则的算法决策树原理剖析及实现(ID3)理解决策树算法(实例详解)-ID3算法与C4.5算法 ID3（...
机器学习算法实现（二）：C4.5
C4.5算法的R语言实践 C5.0算法是C4.5算法的延续和升级，SPSS Modeler建模选项卡中也提供这种算...
十大机器学习算法的优缺点
C4.5算法 C4.5算法的核心思想是ID3算法，是ID3算法的改进：用信息增益率来选择属性，克服了用信息增益来...
C5.0算法
C5.0算法是在C4.5算法的基础上提出的 C5.0和C4.5算法的对比： 1.都是通过计算信息增益率来划分结点，...
第八章数据决策分析算法——基于C4.5算法的决策树
8.2 基于C4.5算法的决策树 C4.5是J.Ross Quinlan基于ID3算法改进后得到的另一个分类决策树...
机器学习 && 深度学习
简单分类算法：Bayes LR SVM 决策树(C4.5 CART) 复合分类算法：Adaboost xg...
C4.5算法
0. 引言 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每...
学习笔记二：数据挖掘最佳路径--摘自陈旸课程
一、数据挖掘的基本流程、十大算法、数学原理 A、分类算法：1、c4.5这个算法是得票最高的算法，可以说是十大算法之...

网友评论

本文标题：C4.5算法详解（非常仔细）

本文链接：https://www.haomeiwen.com/subject/bibtyctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|C4.5算法详解（非常仔细）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！