2018-08-02 决策树-连续值的学习

作者: 阿康666666 | 来源:发表于2018-08-02 23:00 被阅读5次

昨晚看了《机器学习》4.4部分，决策树——连续与缺失值。

看到连续值部分时，上来就是对连续属性a选择候选划分点，计算Gain(D，a）。虽然公式在前面4.2.1见过，也简单的纸上练习过，但是到了这里突然出现λ值，有点懵了。

随后，按照书上的表4.3 西瓜数据集3.0的示例，按照顺序排列密度值如下：

image1.png

写出16个候选密度值如下：

image2.png

接下来就是计算Gain(D,a)了，这个时候一直在在琢磨这个λ到底代表什么参数，在纸上也算是一顿操作猛如虎，却也没得出个结果来，无奈睡觉去了......

今天晚上接着看书的时候，心想：既然想不出来，那么网上搜搜看看有没有高人讲解的。结果一搜还真有，链接如下：
https://blog.csdn.net/u012328159/article/details/79396893

image.png

看了文章后，按照我的理解，这个λ表示的实际上就是划分点划分后的“二值数据"。
例如：t=0.381时，Dt-={0.243,0.245,0.343,0.360},Dt+自然就是剩下的13个值了。
那么，λ-就表示这个Dt-，Ent(Dt-)就计算在这Dt-的区间内，信息增益值了。
感谢高人“云”指点，昨晚一晚上没想明白的问题，瞬间茅塞顿开啊~

“独学而无友，则孤陋而寡闻”。学习，除了自己努力外，还需要多多看看外面的世界，听听别人的看法啊！~

网友评论

本文标题：2018-08-02 决策树-连续值的学习

本文链接：https://www.haomeiwen.com/subject/btdevftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2018-08-02 决策树-连续值的学习

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读