美文网首页
2018-08-02 决策树-连续值的学习

2018-08-02 决策树-连续值的学习

作者: 阿康666666 | 来源:发表于2018-08-02 23:00 被阅读5次

    昨晚看了《机器学习》4.4部分,决策树——连续与缺失值。

    看到连续值部分时,上来就是对连续属性a选择候选划分点,计算Gain(D,a)。虽然公式在前面4.2.1见过,也简单的纸上练习过,但是到了这里突然出现λ值,有点懵了。

    随后,按照书上的表4.3 西瓜数据集3.0的示例,按照顺序排列密度值如下:

    image1.png

    写出16个候选密度值如下:


    image2.png

    接下来就是计算Gain(D,a)了,这个时候一直在在琢磨这个λ到底代表什么参数,在纸上也算是一顿操作猛如虎,却也没得出个结果来,无奈睡觉去了......

    今天晚上接着看书的时候,心想:既然想不出来,那么网上搜搜看看有没有高人讲解的。结果一搜还真有,链接如下:
    https://blog.csdn.net/u012328159/article/details/79396893

    image.png

    看了文章后,按照我的理解,这个λ表示的实际上就是划分点划分后的“二值数据"。
    例如:t=0.381时,Dt-={0.243,0.245,0.343,0.360},Dt+自然就是剩下的13个值了。
    那么,λ-就表示这个Dt-,Ent(Dt-)就计算在这Dt-的区间内,信息增益值了。
    感谢高人“云”指点,昨晚一晚上没想明白的问题,瞬间茅塞顿开啊~


    “独学而无友,则孤陋而寡闻”。学习,除了自己努力外,还需要多多看看外面的世界,听听别人的看法啊!~

    相关文章

      网友评论

          本文标题:2018-08-02 决策树-连续值的学习

          本文链接:https://www.haomeiwen.com/subject/btdevftx.html