昨晚看了《机器学习》4.4部分,决策树——连续与缺失值。
看到连续值部分时,上来就是对连续属性a选择候选划分点,计算Gain(D,a)。虽然公式在前面4.2.1见过,也简单的纸上练习过,但是到了这里突然出现λ值,有点懵了。
随后,按照书上的表4.3 西瓜数据集3.0的示例,按照顺序排列密度值如下:
image1.png写出16个候选密度值如下:
image2.png
接下来就是计算Gain(D,a)了,这个时候一直在在琢磨这个λ到底代表什么参数,在纸上也算是一顿操作猛如虎,却也没得出个结果来,无奈睡觉去了......
今天晚上接着看书的时候,心想:既然想不出来,那么网上搜搜看看有没有高人讲解的。结果一搜还真有,链接如下:
https://blog.csdn.net/u012328159/article/details/79396893
看了文章后,按照我的理解,这个λ表示的实际上就是划分点划分后的“二值数据"。
例如:t=0.381时,Dt-={0.243,0.245,0.343,0.360},Dt+自然就是剩下的13个值了。
那么,λ-就表示这个Dt-,Ent(Dt-)就计算在这Dt-的区间内,信息增益值了。
感谢高人“云”指点,昨晚一晚上没想明白的问题,瞬间茅塞顿开啊~
“独学而无友,则孤陋而寡闻”。学习,除了自己努力外,还需要多多看看外面的世界,听听别人的看法啊!~
网友评论