美文网首页
unit7 ID3分类决策

unit7 ID3分类决策

作者: 巴拉巴拉_9515 | 来源:发表于2018-05-28 16:34 被阅读0次

《集体智慧编程》第七单元“决策树建模”实质就是ID3决策树处理

01 数据介绍

根据来源网站、位置、是否阅读FAQ,浏览网页数,判断该用户是否会注册。

·

02 信息熵计算

信息熵反应数据集的紊乱程度。变量的不确定性越大,熵的值也就越大。

原始数据注册结果有三种形式:'Basic': 6, 'None': 7, 'Premium': 3Basic形式注册6人,Premium形式注册3人,没有注册7人。
那么数据集的信息熵计算为:

同理可以计算来源网站、位置、是否阅读FAQ,浏览网页数四个变量的信息熵。

03 信息增益

以来源网站为例,Entropy(S)数据集整体的信息熵(刚刚算好),来源网站信息为{'(direct)': 2, 'digg': 3, 'google': 5, 'kiwitobes': 3, 'slashdot': 3}
direct信息熵=a1
digg信息熵=a2
google信息熵=a3
kiwitobes信息熵=a4
infoGain(数据集,来源网站)
=Entropy(S) - 2/16a1 + 3/16a2 + 5/16a3 + 3/16a4 + 3/16*a5

同理可以计算出位置、是否阅读FAQ,浏览网页数三个变量的信息增益大的作为根节点。

04 决策树

05分类预测

基于已经建立的决策树模型,对新出现的数据进行分类判断。例如判断来源网站为direct,地址为USA,阅读FAQ,浏览5个网页的用户,判断结果为Basic形式注册。
classify(['(direct)','USA','yes',5],tree)#{'Basic': 4}

06 备注小结

  • 分类决策树ID3算法、C4.5算法、CART决策树相似却有差别。

决策树本质是if-else的处理
例如基于训练集得到决策树模型为{'有房':{0:{'有工作':{0:no,1:yes}},1:yes}
对于新的数据集就可以根据这两个特征的值做结果判断了。

相关文章

  • unit7 ID3分类决策

    《集体智慧编程》第七单元“决策树建模”实质就是ID3决策树处理 01 数据介绍 根据来源网站、位置、是否阅读FAQ...

  • 决策树Decision Tree

    决策树是一种解决分类问题的算法 。 常用的 决策树算法有: ID3 算法 ID3 是最早提出的决策树算法,他...

  • R语言决策树实现

    @[toc] 决策树 适用于分类型独立变量 决策树函数 ID3:information entropy 信息熵 C...

  • 统计机器学习-决策树

    决策树是一种基本的分类与回归方法。ID3和C4.5决策树可以用于分类,CART(分类与回归树)既可以用于分类,也可...

  • ID3算法

    ID3算法(决策树) 经常使用决策树处理分类问题 k-近邻算法最大缺点是无法给出数据的内在含义,决策树的主要优势就...

  • 机器学习:决策树(ID3)

    ID3 决策树构建树的依据是简单的比较样本集分类前后的信息增益 此外还有 CART 决策树,C4.5 决策树等 优...

  • 2019-04-26

    决策树 离散型数据ID3 连续型数据C4.5 分类与回归树算法(CART) CART算法就是将决策树中用于判断特征...

  • 随机森林-GBDT-XGBOOST

    首先需要说一下决策树: 三个主要步骤:特征选择——决策树生成——决策树修剪 ID3和C4.5分类树,CART树即可...

  • c4.5

    C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进...

  • 分类决策树算法

    C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进...

网友评论

      本文标题:unit7 ID3分类决策

      本文链接:https://www.haomeiwen.com/subject/bjsgjftx.html