美文网首页
机器学习_决策树

机器学习_决策树

作者: hao小子 | 来源:发表于2018-03-07 23:43 被阅读0次

    决策树

    计算经验熵和信息增益

    • 计算经验熵
    from math import log
    
    '''
    这是决策树 特征选择中的计算经验熵 这一部分
    '''
    
    """
    函数说明: 创建数据集
    
    Parameters:
        无
    Returns:
        dataSet - 数据集
        labels - 分类属性
    Author:
        xiao zi
    
    Modify:
        2018年3月7日10:16:17
    """
    
    def createDataSet():
        dataSet = [[0,0,0,0,'no'],
                   [0,0,0,1,'no'],
                   [0,1,0,1,'yes'],
                   [0,1,1,0,'yes'],
                   [0,0,0,0,'no'],
                   [1,0,0,0,'no'],
                   [1,0,0,1,'no'],
                   [1,1,1,1,'yes'],
                   [1,0,1,2,'yes'],
                   [1,0,1,2,'yes'],
                   [2,0,1,2,'yes'],
                   [2,0,1,1,'yes'],
                   [2,1,0,1,'yes'],
                   [2,1,0,2,'yes'],
                   [2,0,0,0,'no']]
        labels =['年龄','有工作','有自己的房子','信贷情况']
        return dataSet,labels
    
    """
    函数说明:计算给定数据集的经验熵(香农熵)
    
    Parameters:
        dataSet - 数据集
    Returns:
        shannonEnt - 经验熵(香农熵)
    Author:
        Jack Cui
    Modify:
        2017-03-29
    """
    def calcShannonEnt(dataSet):
        numEntires = len(dataSet)                        #返回数据集的行数
        labelCounts = {}                                #保存每个标签(Label)出现次数的字典
        for featVec in dataSet:                            #对每组特征向量进行统计
            currentLabel = featVec[-1]                    #提取标签(Label)信息
            if currentLabel not in labelCounts.keys():    #如果标签(Label)没有放入统计次数的字典,添加进去
                labelCounts[currentLabel] = 0
            labelCounts[currentLabel] += 1                #Label计数
        shannonEnt = 0.0                                #经验熵(香农熵)
        for key in labelCounts:                            #计算香农熵
            prob = float(labelCounts[key]) / numEntires    #选择该标签(Label)的概率
            shannonEnt -= prob * log(prob, 2)            #利用公式计算
        return shannonEnt                                #返回经验熵(香农熵)
    
    if __name__ == '__main__':
        dataSet, features = createDataSet()
        print(dataSet)
        print(calcShannonEnt(dataSet))
    
    

    输出:

    [[0, 0, 0, 0, 'no'], [0, 0, 0, 1, 'no'], [0, 1, 0, 1, 'yes'], [0, 1, 1, 0, 'yes'], [0, 0, 0, 0, 'no'], [1, 0, 0, 0, 'no'], [1, 0, 0, 1, 'no'], [1, 1, 1, 1, 'yes'], [1, 0, 1, 2, 'yes'], [1, 0, 1, 2, 'yes'], [2, 0, 1, 2, 'yes'], [2, 0, 1, 1, 'yes'], [2, 1, 0, 1, 'yes'], [2, 1, 0, 2, 'yes'], [2, 0, 0, 0, 'no']]
    0.9709505944546686
    
    • 计算信息增益
    # -*- coding: UTF-8 -*-
    from math import log
    
    """
    函数说明:计算给定数据集的经验熵(香农熵)
    
    Parameters:
        dataSet - 数据集
    Returns:
        shannonEnt - 经验熵(香农熵)
    Author:
        Jack Cui
    Modify:
        2017-03-29
    """
    def calcShannonEnt(dataSet):
        numEntires = len(dataSet)                        #返回数据集的行数
        labelCounts = {}                                #保存每个标签(Label)出现次数的字典
        for featVec in dataSet:                            #对每组特征向量进行统计
            currentLabel = featVec[-1]                    #提取标签(Label)信息
            if currentLabel not in labelCounts.keys():    #如果标签(Label)没有放入统计次数的字典,添加进去
                labelCounts[currentLabel] = 0
            labelCounts[currentLabel] += 1                #Label计数
        shannonEnt = 0.0                                #经验熵(香农熵)
        for key in labelCounts:                            #计算香农熵
            prob = float(labelCounts[key]) / numEntires    #选择该标签(Label)的概率
            shannonEnt -= prob * log(prob, 2)            #利用公式计算
        return shannonEnt                                #返回经验熵(香农熵)
    
    """
    函数说明:创建测试数据集
    
    Parameters:
        无
    Returns:
        dataSet - 数据集
        labels - 分类属性
    Author:
        Jack Cui
    Modify:
        2017-07-20
    """
    def createDataSet():
        dataSet = [[0, 0, 0, 0, 'no'],                        #数据集
                [0, 0, 0, 1, 'no'],
                [0, 1, 0, 1, 'yes'],
                [0, 1, 1, 0, 'yes'],
                [0, 0, 0, 0, 'no'],
                [1, 0, 0, 0, 'no'],
                [1, 0, 0, 1, 'no'],
                [1, 1, 1, 1, 'yes'],
                [1, 0, 1, 2, 'yes'],
                [1, 0, 1, 2, 'yes'],
                [2, 0, 1, 2, 'yes'],
                [2, 0, 1, 1, 'yes'],
                [2, 1, 0, 1, 'yes'],
                [2, 1, 0, 2, 'yes'],
                [2, 0, 0, 0, 'no']]
        labels = ['年龄', '有工作', '有自己的房子', '信贷情况']        #分类属性
        return dataSet, labels                             #返回数据集和分类属性
    
    """
    函数说明:按照给定特征划分数据集
    
    Parameters:
        dataSet - 待划分的数据集
        axis - 划分数据集的特征
        value - 需要返回的特征的值
    Returns:
        无
    Author:
        Jack Cui
    Modify:
        2017-03-30
    """
    def splitDataSet(dataSet, axis, value):       
        retDataSet = []                                        #创建返回的数据集列表
        for featVec in dataSet:                             #遍历数据集
            if featVec[axis] == value:
                reducedFeatVec = featVec[:axis]                #去掉axis特征
                reducedFeatVec.extend(featVec[axis+1:])     #将符合条件的添加到返回的数据集
                retDataSet.append(reducedFeatVec)
        return retDataSet                                      #返回划分后的数据集
    
    """
    函数说明:选择最优特征
    
    Parameters:
        dataSet - 数据集
    Returns:
        bestFeature - 信息增益最大的(最优)特征的索引值
    Author:
        Jack Cui
    Modify:
        2017-03-30
    """
    def chooseBestFeatureToSplit(dataSet):
        numFeatures = len(dataSet[0]) - 1                    #特征数量
        baseEntropy = calcShannonEnt(dataSet)                 #计算数据集的香农熵
        bestInfoGain = 0.0                                  #信息增益
        bestFeature = -1                                    #最优特征的索引值
        for i in range(numFeatures):                         #遍历所有特征
            #获取dataSet的第i个所有特征
            featList = [example[i] for example in dataSet]
            uniqueVals = set(featList)                         #创建set集合{},元素不可重复
            newEntropy = 0.0                                  #经验条件熵
            for value in uniqueVals:                         #计算信息增益
                subDataSet = splitDataSet(dataSet, i, value)         #subDataSet划分后的子集
                prob = len(subDataSet) / float(len(dataSet))           #计算子集的概率
                newEntropy += prob * calcShannonEnt(subDataSet)     #根据公式计算经验条件熵
            infoGain = baseEntropy - newEntropy                     #信息增益
            print("第%d个特征的增益为%.3f" % (i, infoGain))            #打印每个特征的信息增益
            if (infoGain > bestInfoGain):                             #计算信息增益
                bestInfoGain = infoGain                             #更新信息增益,找到最大的信息增益
                bestFeature = i                                     #记录信息增益最大的特征的索引值
        return bestFeature                                             #返回信息增益最大的特征的索引值
    
    if __name__ == '__main__':
        dataSet, features = createDataSet()
        print("最优特征索引值:" + str(chooseBestFeatureToSplit(dataSet)))
    

    注:
    splitDataSet函数是用来选择各个特征的子集的,比如选择年龄(第0个特征)的青年(用0代表)的自己,我们可以调用splitDataSet(dataSet,0,0)这样返回的子集就是年龄为青年的5个数据集。

    输出:

    第0个特征的增益为0.083
    第1个特征的增益为0.324
    第2个特征的增益为0.420
    第3个特征的增益为0.363
    最优特征索引值:2
    

    总结;
    我们已经学习了从数据集构造决策树算法所需要的子功能模块,包括经验熵的计算和最优特征的选择,其工作原理如下:得到原始数据集,然后基于最好的属性值划分数据集,由于特征值可能多于两个,因此可能存在大于两个分支的数据集划分。第一次划分之后,数据集被向下传递到树的分支的下一个结点。在这个结点上,我们可以再次划分数据。因此我们可以采用递归的原则处理数据集。


    相关文章

      网友评论

          本文标题:机器学习_决策树

          本文链接:https://www.haomeiwen.com/subject/ltcefftx.html