3-7节决策树|判定鱼类和非鱼类项目汇总|机器学习实战-学习笔

作者: 努力奋斗的durian | 来源:发表于2018-08-20 10:43 被阅读52次

3-7节决策树|判定鱼类和非鱼类项目汇总|机器学习实战-学习笔
3-6节决策树|测试和存储分类器|机器学习实战-学习笔记
3-3节决策树|选择最好的数据集划分方式|机器学习实战-学习笔
3-1节决策树|计算给定数据集的香农熵的函数|机器学习实战-学
3-2节决策树|划分数据集|机器学习实战-学习笔记
【机器学习】决策树（构造篇）
2020-03-25
机器学习汇总
python决策树（二叉树、树）的可视化
《机器学习实战》决策树构建学习

文章原创,最近更新：2018-08-20

本章节的主要内容是:
重点介绍项目案例1:判定鱼类和非鱼类测试算法：测试和存储分类器的代码。

1.决策树项目案例介绍:

项目案例1:

判定鱼类和非鱼类

项目概述:

根据以下 2 个特征，将动物分成两类：鱼类和非鱼类。
特征： 1. 不浮出水面是否可以生存 2. 是否有脚蹼

开发流程：

收集数据：可以使用任何方法
准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化
分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期
训练算法：构造树的数据结构
测试算法：使用决策树执行分类
使用算法：此步骤可以适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义

数据集介绍

2.代码汇总

2.1测试数据集

首先创建一个名为trees.py的文件,createDataSet()函数录入到trees.py文件.

from math import log
import operator

def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']
    return dataSet, labels

2.2计算给定数据集的香农熵的函数

这段代码主要是计算给定数据集的熵,创建一个函数calcShannonEn()函数录入到trees.py文件.

def calcShannonEnt(dataSet):
    # 获取数据集dataSet列表的长度,表示计算参与训练的数据量
    numEntries=len(dataSet)
    # 新建一个空字典labelCounts，用以统计每个标签出现的次数,进而计算概率
    labelCounts={}
    for featVec in dataSet:
        # featVec[-1]获取了daatSet中每行最后一个数据，作为字典中的key（标签）
        currentLabel = featVec[-1]
        # 以currentLabel作为key加入到字典labelCounts.
        # 如果当前的键值不存在，则扩展字典并将当前键值加入字典。每个键值都记录了当前类别出现的次数。
        # 键值存在则则对应value+1,否则为0
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel]=0
        
        labelCounts[currentLabel] += 1
    # 对于 label 标签的占比，求出 label 标签的香农熵
    shannonEnt = 0.0 
    for key in labelCounts:
        # 计算分类概率prob=标签发生频率,labelCounts[key]除以数据集长度numEntries
        prob = float(labelCounts[key])/numEntries
        # 计算香农熵,以2为底求对数
        shannonEnt -=prob * log(prob,2)
    return shannonEnt

测试代码及其结果如下:

import trees

a, b = trees.createDataSet()

trees.calcShannonEnt(a)
Out[90]: 0.9709505944546686

2.3划分数据集的函数代码

这个函数的是作用是当我们按某个特征划分数据集时，把划分后剩下的元素抽取出来，形成一个新的子集，用于计算条件熵。

创建一个函数splitDataSet()函数录入到trees.py文件.

具体相关知识点,可参见:3-2节决策树|划分数据集|机器学习实战-学习笔记

def splitDataSet(dataSet,axis,value):
    """
    splitDataSet(通过遍历dataSet数据集,求出index对应的column列的值为value的行)
    就是依据index列进行分类,如果index列的数据等于value的时候,就要index划分到我们创建的新的数据集中
    Args:
      dataSet:数据集                待划分的数据集
      axis:表示每一行的index列      特征的坐标，等于0，第0个特征为0或者1
      value:表示index列对应的value值 需要返回的特征的值
    Returns:
        index列为value的数据集[该数据集需要排除axis列]
    """
    retDataSet = []
    # index列为value的数据集[该数据集需要排除index列]
    # 判断index列的值是否等于value
    # 遍历数据集，将axis上的数据和value值进行对比
    for featVec in dataSet:
        # 如果待检测的特征axis和指定的特征value相等
        if featVec[axis] == value:
            # 从第0开始，一旦发现第axis符合要求，就将数据0-axis保存至reduceFeatVec
            reducedFeatVec =featVec[:axis]
            # 将指定的数据的axis+1位到末尾添加至reducedFeatVec，保持数据完整性
            reducedFeatVec.extend(featVec[axis+1:])
            # 收集结果值除掉index列的reducedFeatVec收据集添加到retDataSet数据集
            retDataSet.append(reducedFeatVec)
    return retDataSet

测试代码及其结果如下:

import trees
mydata,labels=trees.createDataSet()

mydata
Out[111]: [[1, 1, 'maybe'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

trees.splitDataSet(mydata,0,1)
Out[112]: [[1, 'maybe'], [1, 'yes'], [0, 'no']]

2.4选择最好的数据集划分方式的函数代码

接下来我们将遍历整个数据集，循环计算香农熵和 splitDataSet（）函数，找到最好的特征划分方式。熵计算将会告诉我们如何划分数据集是最好的数据组织方式.

创建一个函数chooseBestFeatTopSplit()函数录入到trees.py文件.

def chooseBestFeatTopSplit(dataSet):
    """chooseBestFeatureToSplit(选择最好的特征)

    Args:
        dataSet 数据集
    Returns:
        bestFeature 最优的特征列
    """
    # 求第一行有多少列的 Feature, 减去1,是因为最后一列是label列
    numFeatures = len(dataSet[0])-1
    # 计算没有经过划分的数据的香农熵
    baseEntropy = calcShannonEnt(dataSet) 
    # 最优的信息增益值
    bestInfoGain = 0.0
    #最优的Featurn编号
    bestFeature = -1
    for i in range(numFeatures): 
        # 创建唯一的分类标签列表，获取第i个的所有特征（信息元纵排列！）
        featList = [example[i] for example in dataSet]
        """
        print(featList)结果为
        [1, 1, 1, 0, 0]
        [1, 1, 0, 1, 1]
        """
        # 使用set集，排除featList中的重复标签，得到唯一分类的集合
        uniqueVals = set(featList)
        """
        print(uniqueVals)结果为
        {0, 1}
        {0, 1}
        """
        newEntropy = 0.0
         # 遍历当次uniqueVals中所有的标签value（这里是0，1）
        for value in uniqueVals: 
            # 对第i个数据划分数据集, 返回所有包含i的数据（已排除第i个特征）
            subDataSet = splitDataSet(dataSet, i, value)
            """
            print(subDataSet)结果为
            [[1, 'no'], [1, 'no']]
            [[1, 'yes'], [1, 'yes'], [0, 'no']]
            [[1, 'no']]
            [[1, 'yes'], [1, 'yes'], [0, 'no'], [0, 'no']]
            """        
            # 计算包含个i的数据占总数据的百分比
            prob = len(subDataSet)/float(len(dataSet))
            """
            print(prob)结果为
            0.4
            0.6
            0.2
            0.8
            """
            # 计算新的香农熵，不断进行迭代，这个计算过程仅在包含指定特征标签子集中进行
            newEntropy += prob * calcShannonEnt(subDataSet) 
            """
            print(calcShannonEnt(subDataSet))
            0.0
            0.9182958340544896
            0.0
            1.0
        
            print(newEntropy)结果为
            0.0
            0.5509775004326937
            0.0
            0.8
            """
            
            # 计算信息增益
            infoGain = baseEntropy - newEntropy
            # 如果信息增益大于最优增益，即新增益newEntropy越小，信息增益越大，分类也就更优（分类越简单越好）
            """
            print(infoGain)结果为
            0.4199730940219749
            0.17095059445466854
            """
            
            if (infoGain > bestInfoGain): 
                # 更新信息增益 
                bestInfoGain = infoGain
                # 确定最优增益的特征索引
                bestFeature = i 
                # 更新信息增益
        # 返回最优增益的索引
        return bestFeature

测试代码及其结果如下:

import trees
myDat,labels=trees.createDataSet()

myDat
Out[182]: [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

trees.chooseBestFeatTopSplit(myDat)
Out[183]: 0

2.5 递归构建决策树

创建分别函数majorityCnt()以及createTree()录入到trees.py文件.

具体相关知识点,可参见:3-4节决策树|递归构建决策树|机器学习实战-学习笔记

2.5.1筛选出现次数最多的分类标签名称
如果数据集已经处理了所有的属性,但是类标签依然不是唯一的,此时我们需要决定如何定义该叶子节点,在这种情况下,我们通常会采用多数表决的方法决定该叶子节点的分类.

#筛选出现次数最多的分类标签名称
def majorityCnt(classList):
    """
    majorityCnt(筛选出现次数最多的分类标签名称)

    Args:
        classList 类别标签的列表
    Returns:
        sortedClassCount[0][0] 出现次数最多的分类标签名称
        
    假设classList=['yes', 'yes', 'no', 'no', 'no']    
    """
    classCount={}
    for vote in classList:
        if vote not in classCount.keys():classCount[vote]= 0
        classCount[vote] += 1
        """
        print(classCount[vote])的结果为:
        {'yes': 1}
        {'yes': 2}
        {'yes': 2, 'no': 1}
        {'yes': 2, 'no': 2}
        {'yes': 2, 'no': 3}
        """
    sortedClassCount =sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    """
    print(sortedClassCount)的结果为:
    [('no', 3), ('yes', 2)]
    """
    return sortedClassCount[0][0]

测试代码及其结果如下:

import trees
classList=['yes', 'yes', 'no', 'no', 'no']

majorityCnt(classList)
Out[45]: 'no'

2.5.2递归构建决策树
决策树是一个递归算法，伪代码如下：

def createBranch():
    检测数据集中的所有数据的分类标签是否相同:
        If so return 类标签
        Else:
            寻找划分数据集的最好特征（划分之后信息熵最小，也就是信息增益最大的特征）
            划分数据集
            创建分支节点
                for 每个划分的子集
                    调用函数 createBranch （创建分支的函数）并增加返回结果到分支节点中
            return 分支节点

决策树一般使用递归的方法生成。

编写递归函数有一个好习惯，就是先考虑结束条件。生成决策树结束的条件有两个：其一是划分的数据都属于一个类，其二是所有的特征都已经使用了。在第二种结束情况中，划分的数据有可能不全属于一个类，这个时候需要根据多数表决准则确定这个子数据集的分类。
在非结束的条件下，首先选择出信息增益最大的特征，然后根据其分类。分类开始时，记录分类的特征到决策树中，然后在特征标签集中删除该特征，表示已经使用过该特征。根据选中的特征将数据集分为若干个子数据集，然后将子数据集作为参数递归创建决策树，最终生成一棵完整的决策树

 # 创建树的函数代码       
def createTree(dataSet, labels):
    """
    createTree(创建树)

    Args:
        dataSet 数据集
        labels  标签列表:标签列表包含了数据集中所有特征的标签。最后代码遍历当前选择
    Returns:
        myTree 标签树:特征包含的所有属性值，在每个数据集划分上递归待用函数createTree()，
        得到的返回值将被插入到字典变量myTree中，因此函数终止执行时，字典中将会嵌套很多代
        表叶子节点信息的字典数据。
    """
    #取得dataSet的最后一列数据保存在列表classList中
    classList = [example[-1] for example in dataSet]
    #如果classList中的第一个值在classList中的总数等于长度,也就是说classList中所有的值都一样
    #也就等价于当所有的类别只有一个时停止
    if classList.count(classList[0])==len(classList):
        return classList[0]
    #当数据集中没有特征可分时也停止
    if len(dataSet[0])==1:
        #通过majorityCnt()函数返回列表中最多的分类
        return majorityCnt(classList)
    #通过chooseBestFeatTopSplit()函数选出划分数据集最佳的特症
    bestFeat = chooseBestFeatTopSplit(dataSet) 
    #最佳特征名 = 特征名列表中下标为bestFeat的元素
    bestFeatLabel=labels[bestFeat]
    # 构造树的根节点，多级字典的形式展现树，类似多层json结构
    myTree={bestFeatLabel:{}}
    # 删除del列表labels中的最佳特征(就在labels变量上操作)
    del(labels[bestFeat])
    #取出所有训练样本最佳特征的值形成一个list
    featValues = [example[bestFeat] for example in dataSet]
    # 通过set函数将featValues列表变成集合,去掉重复的值
    uniqueVals = set(featValues)
    for value in uniqueVals:
        #复制类标签并将其存储在新列表subLabels中
        subLabels = labels[:] 
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
    return myTree

测试代码及其结果如下:

import trees
myDat,labels=createDataSet()
myTree =createTree(myDat,labels)

myTree
Out[55]: {'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

2.6使用文本注解绘制树节点的函数代码

将以下代码录入到treePlotter.py文件.

《机器学习实战》书中，该部分的代码有些混乱。重新构造了代码，创建一个类。其中，绘制最基本的树节点是如下代码：

#导入matplotlib的pyplot绘图模块并命名为plt
import matplotlib.pyplot as plt

# boxstyle是文本框类型,fc是边框粗细,sawtooth是锯齿形
decisionNode = dict(boxstyle="sawtooth",fc="0.8")
leafNode = dict(boxstyle="round4",fc="0.8")

# arrowprops: 通过arrowstyle表明箭头的风格或种类。
arrow_args=dict(arrowstyle="<-")

# annotate 注释的意思
#plotNode()函数绘制带箭头的注解,sub_ax:使用figure命令来产生子图, node_text：节点的文字标注,start_pt：箭头起点位置（上一节点位置）,end_pt:箭头结束位置, node_type：节点属性   
def plot_node(sub_ax, node_text, start_pt, end_pt, node_type):
    sub_ax.annotate(node_text,
        xy = end_pt, xycoords='axes fraction', 
        xytext = start_pt, textcoords='axes fraction',
        va='center', ha='center', bbox=node_type, arrowprops=arrow_args)

if __name__ == '__main__':
    fig = plt.figure(1, facecolor='white')
    #清空绘图区
    fig.clf()
    axprops = dict(xticks=[], yticks=[]) #去掉坐标轴
    sub_ax = plt.subplot(111, frameon=False, **axprops)
    #绘制节点
    plot_node(sub_ax, 'a decision node', (0.5, 0.1), (0.1, 0.5), decisionNode)
    plot_node(sub_ax, 'a leaf node', (0.8, 0.1), (0.3, 0.8), leafNode)
    plt.show()

输出结果如下:

2.7测试算法：使用决策树执行分类代码

依靠训练数据构造了决策树之后，我们可以将它用于实际数据的分类。在执行数据分类时，需要决策树以及用于决策树的标签向量。然后，程序比较测试数据与决策树上的数值，递归执行该过程直到进入叶子结点；最后将测试数据定义为叶子结点所属的类型。

创建一个函数classify()录入到trees.py文件.

具体相关知识点,可参见:3-6节决策树|测试和存储分类器|机器学习实战-学习笔记

def classify(inputTree, featLabels, testVec):
    # 因为并不知道按特征分类的先后顺序，所以要写一个分类器
    """classify(给输入的节点，进行分类)

    Args:
        inputTree  是输入的决策树对象
        featLabels Feature是我们要预测的特征值的label，如：['throat','mustache']
        testVec    是要预测的特征值向量，如[0,0]
    Returns:
        classLabel 分类的结果值，需要映射label才能知道名称
    """
    # 存储决策树第一个节点
    firstStr=list(inputTree.keys())[0]
    """
    myTree={'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}
    labels=['no surfacing', 'flippers']
    
    print(firstStr)的结果为:
    'no surfacing'
    """
    # 将第一个节点的值存到secondDict字典中
    secondDict = inputTree[firstStr]
    """
    print(secondDict)的结果为:
    {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}
    """
    # 判断根节点名称获取根节点在label中的先后顺序，这样就知道输入的testVec怎么开始对照树来做分类
    featIndex = featLabels.index(firstStr)
    """
    print(featIndex)的结果为:
    0
    """
    for key in secondDict.keys():
        """
        print(secondDict.keys())的结果为:
        dict_keys([0, 1])
        """
        if testVec[featIndex]==key:
            # 判断分枝是否结束:判断secondDict[key]是否是dict类型,如果是就递归，不是就输出当前键值为结果
            if type(secondDict[key]).__name__ == 'dict':
                classLabel = classify(secondDict[key], featLabels, testVec)
            else:
                classLabel = secondDict[key]
    return classLabel

测试代码以及结果如下:

import trees
myDat, labels = trees.createDataSet()
myTree = trees.createTree(myDat, labels[:])

Out[35]:  trees.classify(myTree, labels, [1, 0])
'no'
Out[36]:  trees.classify(myTree, labels, [1, 1])
'yes'

2.8使用算法：决策树的存储

可以使用Python模块pickle序列化对象，参见下面的程序。序列化对象可以在磁盘上保存对象，并在需要的时候读取出来。

创建分别函数storeTree()/grabTree()录入到trees.py文件.

具体相关知识点,可参见:3-6节决策树|测试和存储分类器|机器学习实战-学习笔记

def storeTree(inputTree,filename):
    import pickle
    # wb二进制写模式
    fw = open(filename,"wb")
    pickle.dump(inputTree,fw)
    fw.close()
    
def grabTree(filename):
    import pickle
    # rb二进制文件读取
    fr=open(filename,"rb")
    return pickle.load(fr)

测试代码以及结果如下:

import trees
myDat, labels = trees.createDataSet()
myTree = trees.createTree(myDat, labels[:])

storeTree(myTree,'classifierStorage.txt')
grabTree('classifierStorage.txt')
Out[51]: {'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

3-7节决策树|判定鱼类和非鱼类项目汇总|机器学习实战-学习笔
文章原创,最近更新：2018-08-20 本章节的主要内容是:重点介绍项目案例1:判定鱼类和非鱼类测试算法：测试和...
3-6节决策树|测试和存储分类器|机器学习实战-学习笔记
文章原创,最近更新：2018-08-19 本章节的主要内容是:重点介绍项目案例1:判定鱼类和非鱼类测试算法：测试和...
3-3节决策树|选择最好的数据集划分方式|机器学习实战-学习笔
文章原创,最近更新：2018-08-13 本章节的主要内容是:重点介绍项目案例1:判定鱼类和非鱼类选择最好的数据集...
3-1节决策树|计算给定数据集的香农熵的函数|机器学习实战-学
文章原创,最近更新：2018-08-11 本章节的主要内容是:重点介绍项目案例1:判定鱼类和非鱼类的计算给定数据集...
3-2节决策树|划分数据集|机器学习实战-学习笔记
文章原创,最近更新：2018-08-13 本章节的主要内容是:重点介绍项目案例1:判定鱼类和非鱼类划分数据集的函数...
【机器学习】决策树（构造篇）
下一篇为：【机器学习】决策树（Matplotlib可视化+项目实战）最经常使用的机器学习算法k近邻法最大缺点是无...
2020-03-25
今天上午，主要学习了一些主养鱼类的俗称，以及几种常见的放养模式，还有鱼类疾病的诊断流程。下午主要学习了一些鱼类的...
机器学习汇总
机器学习汇总介绍本模块包含自己学习机器学习过程中学习过的内容，包含基础案例和实战案例，大部分以ipynb的格式...
python决策树（二叉树、树）的可视化
问题描述在我学习机器学习实战-决策树部分，欲可视化决策树结构。最终可视化结果：解决方案决策树由嵌套字典组成，...
《机器学习实战》决策树构建学习
概要记录 Decision Tree基本学习，学习自《机器学习实战》P32 - P42 (基于信息增益的决策树构建...

3-7节决策树|判定鱼类和非鱼类项目汇总|机器学习实战-学习笔

1.决策树项目案例介绍:

项目案例1:

项目概述:

开发流程：

数据集介绍

2.代码汇总

2.1测试数据集

2.2计算给定数据集的香农熵的函数

2.3划分数据集的函数代码

2.4选择最好的数据集划分方式的函数代码

2.5 递归构建决策树

2.6使用文本注解绘制树节点的函数代码

2.7测试算法：使用决策树执行分类代码

2.8使用算法：决策树的存储

相关文章