美文网首页
第八章 数据决策分析算法——基于C4.5算法的决策树

第八章 数据决策分析算法——基于C4.5算法的决策树

作者: 文颜 | 来源:发表于2019-11-03 10:19 被阅读0次

    8.2 基于C4.5算法的决策树

    C4.5是J.Ross Quinlan基于ID3算法改进后得到的另一个分类决策树算法。C4.5算法继承了ID3算法的优点,且改进后的算法产生的分类规则易于理解,准确率高。同时,该算法也存在一些缺点,如算法效率低,只适合于能驻留于内存的数据集。

    改进:

    1、用信息增益率来选择属性,客服了ID3算法选择属性时偏向选择取值多的属性的不足。

    2、在决策树构造过程中进行剪枝,不考虑某些具有很少元素结点。

    3、能够完成对连续属性的离散化处理。

    4、能够对不完整数据进行处理。

    信息增益率:

    V表示属性集合A中的一个属性的全部取值;

    1、计算出样本集合D的信息熵。

    2、对属性集A中的每个属性分别计算信息熵。

    3、根据步骤2中计算出的数据,计算选择第一个根结点所依赖的信息增益值Gain(V)。

    4、计算分裂信息度量H(V)。

    5、利用公式IGR(V)=Gain(V)\div H(V)计算信息增益率。

    相关文章

      网友评论

          本文标题:第八章 数据决策分析算法——基于C4.5算法的决策树

          本文链接:https://www.haomeiwen.com/subject/ytykbctx.html