ID3算法

作者: 苟且偷生小屁屁 | 来源:发表于2017-09-27 09:49 被阅读0次

在信息论中，期望信息越小，那么信息增益就越大，从而纯度就越高.

ID3算法的核心思想就是以信息增益来度量属性的选择，选择分裂后信息增益最大的属性进行分裂

在信息增益中，重要性的衡量标准就是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。

图片.png

举个例子
根据天气情况决定今天打球与否：

Firefox_Screenshot_2017-09-26T13-27-38.839Z.png

可以看出，一共14个样例，包括9个正例和5个负例。那么当前信息的熵计算如下:

Firefox_Screenshot_2017-09-26T13-33-26.951Z.png

在决策树分类问题中，信息增益就是决策树在进行属性选择划分前和划分后信息的差值。假设利用属性Outlook来分类，那么如下图:
Firefox_Screenshot_2017-09-26T13-39-00.161Z.png
划分后，数据被分为三部分了，那么各个分支的信息熵计算如下:
Firefox_Screenshot_2017-09-26T13-40-33.327Z.png
那么划分后的信息熵为:
Paste_Image.png

如果按照温度来划分
1179285551.jpg

如果按照湿度以及刮风来划分

微信图片_20170926234931.jpg

由此可以看出，属性“outlook”的信息增益最大，所以第一层利用“温度”来进行划分：

ID3算法可用于划分标准称型数据，但存在一些问题：
1.只可以处理离散分布的数据特征
2.信息增益的方法偏向选择具有大量值的属性，也就是说某个属性特征索取的不同值越多，那么越有可能作为分裂属性，这样是不合理的；
3.没有剪枝过程，为了去除过渡数据匹配的问题，可通过裁剪合并相邻的无法产生大量信息增益的叶子节点;

网友评论

本文标题：ID3算法

本文链接：https://www.haomeiwen.com/subject/aufeextx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

ID3算法

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读