美文网首页
决策树ID3、C4.5

决策树ID3、C4.5

作者: 小小少年Boy | 来源:发表于2018-08-04 10:10 被阅读0次

    决策树ID3、C4.5

    如需转载,请注明作者及出处.

    作者:Treant

    出处:http://www.cnblogs.com/en-heng/

    【十大经典数据挖掘算法】系列

    1. C4.5
    2. K-Means
    3. SVM
    4. Apriori
    5. EM
    6. PageRank
    7. AdaBoost
    8. kNN
    9. Naïve Bayes
    10. CART

    1. 决策树模型与学习

    决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5,Breiman等提出的CART。其中,C4.5是基于ID3的,对分裂属性的目标函数做出了改进。

    决策树模型

    决策树是一种通过对特征属性的分类对样本进行分类的树形结构,包括有向边与三类节点:

    • 根节点(root node),表示第一个特征属性,只有出边没有入边;
    • 内部节点(internal node),表示特征属性,有一条入边至少两条出边
    • 叶子节点(leaf node),表示类别,只有一条入边没有出边。

    [站外图片上传中...(image-2908da-1533348073433)]

    上图给出了(二叉)决策树的示例。决策树具有以下特点:

    • 对于二叉决策树而言,可以看作是if-then规则集合,由决策树的根节点到叶子节点对应于一条分类规则;
    • 分类规则是互斥并且完备的,所谓互斥即每一条样本记录不会同时匹配上两条分类规则,所谓完备即每条样本记录都在决策树中都能匹配上一条规则。
    • 分类的本质是对特征空间的划分,如下图所示,
    img

    决策树学习

    决策树学习的本质是从训练数据集中归纳出一组分类规则[2]。但随着分裂属性次序的不同,所得到的决策树也会不同。如何得到一棵决策树既对训练数据有较好的拟合,又对未知数据有很好的预测呢?

    首先,我们要解决两个问题:

    • 如何选择较优的特征属性进行分裂?每一次特征属性的分裂,相当于对训练数据集进行再划分,对应于一次决策树的生长。ID3算法定义了目标函数来进行特征选择。
    • 什么时候应该停止分裂?有两种自然情况应该停止分裂,一是该节点对应的所有样本记录均属于同一类别,二是该节点对应的所有样本的特征属性值均相等。但除此之外,是不是还应该其他情况停止分裂呢?

    2. 决策树算法

    特征选择

    特征选择指选择最大化所定义目标函数的特征。下面给出如下三种特征(Gender, Car Type, Customer ID)分裂的例子:

    img

    图中有两类类别(C0, C1),C0: 6是对C0类别的计数。直观上,应选择Car Type特征进行分裂,因为其类别的分布概率具有更大的倾斜程度,类别不确定程度更小。

    为了衡量类别分布概率的倾斜程度,定义决策树节点t的不纯度(impurity),其满足:不纯度越小,则类别的分布概率越倾斜;下面给出不纯度的的三种度量:

    image.png

    其中,p(ck|t)表示对于决策树节点t类别ck的概率。这三种不纯度的度量是等价的,在等概率分布时达到最大值。

    为了判断分裂前后节点不纯度的变化情况,目标函数定义为信息增益(information gain):

    image.png

    I(⋅)对应于决策树节点的不纯度,parent表示分裂前的父节点,N表示父节点所包含的样本记录数,ai表示父节点分裂后的某子节点,N(ai)为其计数,n为分裂后的子节点数。

    特别地,ID3算法选取熵值作为不纯度I(⋅)的度量,则

    image.png

    c指父节点对应所有样本记录的类别;A表示选择的特征属性,即ai的集合。那么,决策树学习中的信息增益Δ等价于训练数据集中类与特征的互信息,表示由于得知特征A的信息训练数据集c不确定性减少的程度。

    在特征分裂后,有些子节点的记录数可能偏少,以至于影响分类结果。为了解决这个问题,CART算法提出了只进行特征的二元分裂,即决策树是一棵二叉树;C4.5算法改进分裂目标函数,用信息增益比(information gain ratio)来选择特征:

    image.png

    因而,特征选择的过程等同于计算每个特征的信息增益,选择最大信息增益的特征进行分裂。此即回答前面所提出的第一个问题(选择较优特征)。ID3算法设定一阈值,当最大信息增益小于阈值时,认为没有找到有较优分类能力的特征,没有往下继续分裂的必要。根据最大表决原则,将最多计数的类别作为此叶子节点。即回答前面所提出的第二个问题(停止分裂条件)。

    决策树生成

    ID3算法的核心是根据信息增益最大的准则,递归地构造决策树;算法流程如下:

    1. 如果节点满足停止分裂条件(所有记录属同一类别 or 最大信息增益小于阈值),将其置为叶子节点;
    2. 选择信息增益最大的特征进行分裂;
    3. 重复步骤1-2,直至分类完成。

    C4.5算法流程与ID3相类似,只不过将信息增益改为信息增益比

    3. 决策树剪枝

    过拟合

    生成的决策树对训练数据会有很好的分类效果,却可能对未知数据的预测不准确,即决策树模型发生过拟合(overfitting)——训练误差(training error)很小、泛化误差(generalization error,亦可看作为test error)较大。下图给出训练误差、测试误差(test error)随决策树节点数的变化情况:

    img

    可以观察到,当节点数较小时,训练误差与测试误差均较大,即发生了欠拟合(underfitting)。当节点数较大时,训练误差较小,测试误差却很大,即发生了过拟合。只有当节点数适中是,训练误差居中,测试误差较小;对训练数据有较好的拟合,同时对未知数据有很好的分类准确率。

    发生过拟合的根本原因是分类模型过于复杂,可能的原因如下:

    • 训练数据集中有噪音样本点,对训练数据拟合的同时也对噪音进行拟合,从而影响了分类的效果;
    • 决策树的叶子节点中缺乏有分类价值的样本记录,也就是说此叶子节点应被剪掉。

    剪枝策略

    为了解决过拟合,C4.5通过剪枝以减少模型的复杂度。[2]中提出一种简单剪枝策略,通过极小化决策树的整体损失函数(loss function)或代价函数(cost function)来实现,决策树TT的损失函数为:

    image.png

    其中,C(T)表示决策树的训练误差,α为调节参数,|T|为模型的复杂度。当模型越复杂时,训练的误差就越小。上述定义的损失正好做了两者之间的权衡。

    如果剪枝后损失函数减少了,即说明这是有效剪枝。具体剪枝算法可以由动态规划等来实现。

    4. 参考资料

    [1] Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining.
    [2] 李航,《统计学习方法》.
    [3] Naren Ramakrishnan, The Top Ten Algorithms in Data Mining.

    5 python实现决策树C4.5算法(在ID3基础上改进)

    一、概论

    C4.5主要是在ID3的基础上改进,ID3选择(属性)树节点是选择信息增益值最大的属性作为节点。而C4.5引入了新概念“信息增益率”,C4.5是选择信息增益率最大的属性作为树节点。

    二、信息增益

    信息增益

    以上公式是求信息增益率(ID3的知识点),其中,D为数据集,H(D)代表数据集D的经验熵,H(D|A)代表了给定特征A后的经验条件熵。熵代表了随机变量不确定的程度,熵越大,越混乱。

    image.png

    当随机变量只取两个值0/1时,X为0-1分布,则X的熵为:

    image.png

    条件熵定义为:

    image.png

    Dv代表了D中第a个属性上取值为av的样例个数。

    三、信息增益率

    信息增益率 image.png

    四、C4.5的完整代码

    # -*- coding: utf-8 -*-
    # @Time    : 2018/2/28 17:23
    # @Author  : Boy
    
    
    from numpy import *
    from scipy import *
    from math import log
    import operator
    
    
    # 计算给定数据的香浓熵:
    def calcShannonEnt(dataSet):
        numEntries = len(dataSet)
        labelCounts = {}  # 类别字典(类别的名称为键,该类别的个数为值)
        for featVec in dataSet:
            currentLabel = featVec[-1]
            if currentLabel not in labelCounts.keys():  # 还没添加到字典里的类型
                labelCounts[currentLabel] = 0 
            labelCounts[currentLabel] += 1 
        shannonEnt = 0.0
        for key in labelCounts:  # 求出每种类型的熵
            prob = float(labelCounts[key]) / numEntries  # 每种类型个数占所有的比值
            shannonEnt -= prob * log(prob, 2)
        return shannonEnt  # 返回熵
    
    
    # 按照给定的特征划分数据集
    def splitDataSet(dataSet, axis, value):
        retDataSet = []
        for featVec in dataSet:  # 按dataSet矩阵中的第axis列的值等于value的分数据集
            if featVec[axis] == value:  # 值等于value的,每一行为新的列表(去除第axis个数据)
                reducedFeatVec = featVec[:axis]
                reducedFeatVec.extend(featVec[axis + 1:])
                retDataSet.append(reducedFeatVec)
        return retDataSet  # 返回分类后的新矩阵
    
    
    # 选择最好的数据集划分方式
    def chooseBestFeatureToSplit(dataSet):
        numFeatures = len(dataSet[0]) - 1  # 求属性的个数
        baseEntropy = calcShannonEnt(dataSet)
        bestInfoGain = 0.0
        bestFeature = -1
        for i in range(numFeatures):  # 求所有属性的信息增益
            featList = [example[i] for example in dataSet]
            uniqueVals = set(featList)  # 第i列属性的取值(不同值)数集合
            newEntropy = 0.0
            splitInfo = 0.0
            for value in uniqueVals:  # 求第i列属性每个不同值的熵*他们的概率
                subDataSet = splitDataSet(dataSet, i, value)
                prob = len(subDataSet) / float(len(dataSet))  # 求出该值在i列属性中的概率
                newEntropy += prob * calcShannonEnt(subDataSet)  # 求i列属性各值对于的熵求和
                splitInfo -= prob * log(prob, 2) 
            infoGain = (baseEntropy - newEntropy) / splitInfo  # 求出第i列属性的信息增益率
            print(infoGain)
            if (infoGain > bestInfoGain):  # 保存信息增益率最大的信息增益率值以及所在的下表(列值i)
                bestInfoGain = infoGain
                bestFeature = i
        return bestFeature
    
    
    # 找出出现次数最多的分类名称
    def majorityCnt(classList):
        classCount = {}
        for vote in classList:
            if vote not in classCount.keys(): classCount[vote] = 0
            classCount[vote] += 1
        sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
        return sortedClassCount[0][0]
    
    
    # 创建树
    def createTree(dataSet, labels):
        classList = [example[-1] for example in dataSet]   # 创建需要创建树的训练数据的结果列表(例如最外层的列表是[N, N, Y, Y, Y, N, Y])
        if classList.count(classList[0]) == len(classList):  # 如果所有的训练数据都是属于一个类别,则返回该类别
            return classList[0]
        if (len(dataSet[0]) == 1):  # 训练数据只给出类别数据(没给任何属性值数据),返回出现次数最多的分类名称
            return majorityCnt(classList) 
    
        bestFeat = chooseBestFeatureToSplit(dataSet)   # 选择信息增益最大的属性进行分(返回值是属性类型列表的下标)
        bestFeatLabel = labels[bestFeat]  # 根据下表找属性名称当树的根节点
        myTree = {bestFeatLabel: {}}  # 以bestFeatLabel为根节点建一个空树
        del (labels[bestFeat])  # 从属性列表中删掉已经被选出来当根节点的属性
        featValues = [example[bestFeat] for example in dataSet]  # 找出该属性所有训练数据的值(创建列表)
        uniqueVals = set(featValues)  # 求出该属性的所有值得集合(集合的元素不能重复)
        for value in uniqueVals:  # 根据该属性的值求树的各个分支
            subLabels = labels[:]
            myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)  # 根据各个分支递归创建树
        return myTree  # 生成的树
    
    
    # 实用决策树进行分类
    def classify(inputTree, featLabels, testVec):
        firstSides = list(inputTree.keys())
        firstStr = firstSides[0]
        secondDict = inputTree[firstStr]
        featIndex = featLabels.index(firstStr)
        for key in secondDict.keys():
            if testVec[featIndex] == key:
                if type(secondDict[key]).__name__ == 'dict':
                    classLabel = classify(secondDict[key], featLabels, testVec)
                else:
                    classLabel = secondDict[key]
        return classLabel
    
    
    # 读取数据文档中的训练数据(生成二维列表)
    def createTrainData():
        lines_set = open('../data/ID3/Dataset.txt').readlines()
        labelLine = lines_set[2] 
        labels = labelLine.strip().split()
        lines_set = lines_set[4:11]
        dataSet = [] 
        for line in lines_set:
            data = line.split() 
            dataSet.append(data) 
        return dataSet, labels
    
    
    # 读取数据文档中的测试数据(生成二维列表)
    def createTestData():
        lines_set = open('../data/ID3/Dataset.txt').readlines()
        lines_set = lines_set[15:22]
        dataSet = [] 
        for line in lines_set:
            data = line.strip().split() 
            dataSet.append(data) 
        return dataSet
    
    
    if __name__ == '__main__':
        myDat, labels = createTrainData()
        myTree = createTree(myDat, labels)
        print(myTree)
        bootList = ['outlook', 'temperature', 'humidity', 'windy'] 
        testList = createTestData()
        i=1
        for testData in testList:
            dic = classify(myTree, bootList, testData)
            print(i,dic)
            i = i+1
    
    trainset
    
    outlook    temperature    humidity    windy
    ---------------------------------------------------------
    sunny     hot             high           false          N
    sunny     hot             high           true           N
    overcast  hot             high           false          Y
    rain      mild            high           false          Y
    rain      cool            normal         false          Y
    rain      cool            normal         true           N
    overcast  cool            normal         true           Y
    
    testset
    outlook   temperature      humidity     windy
    ---------------------------------------------------------
    sunny       mild           high         false
    sunny       cool           normal       false
    rain        mild           normal       false
    sunny       mild           normal       true
    overcast    mild           high         true
    overcast    hot            normal       false
    rain        mild           high         true
    

    参考资料

    1 python实现决策树C4.5算法(在ID3基础上改进)

    2 决策树ID3算法及其Python实现

    相关文章

      网友评论

          本文标题:决策树ID3、C4.5

          本文链接:https://www.haomeiwen.com/subject/ugipvftx.html