美文网首页
Parallel induction algorithms fo

Parallel induction algorithms fo

作者: 世间五彩我执纯白 | 来源:发表于2016-04-08 17:08 被阅读0次

    1. Abstract

    C4.5决策树的并行

    2. Intro

    • 决策树在大数据集上计算开销太大
    • 找到最优的决策树是NP难问题

    3. 顺序C4.5

    • 数据的属性是连续或者离散的
    • 步骤:计算每个属性的information gain;选择带来最大信息增益的属性作为当前树的node;决定branch node;将数据分配到相应的branch上;对每个branch重复执行以上步骤
    • C4.5实现的两个难点:对数据排序;处理连续属性
    • 对于连续数据,C4.5使用相邻item的属性的较小值作为切分点

    4. C4.5的并行实现

    • 不同node在不同processor上并行处理,区别是切分数据的方法不一样,这影响了通信开销

    4.1. Scheme 1

    • 所有processor保存一份数据副本
    • master processor构建树一直到leaves的数量等于processor的数量,然后每个processor并行处理

    4.2. Scheme 2.1 and 2.2

    • 切分数据到不同processor
    • master processor构建树一直到leaves的数量等于processor的数量,然后将相应的数据发送到每个processor
    • scheme 2.1和2.2处理连续属性的方法不一样。2.1中所有连续属性的值都duplicate到每个processor;2.2中master与其他processor通信,传递每个processor需要的local values

    4.3. 不同shemes的分析

    • scheme 1的通信开销最小,但是内存开销大
    • scheme 2.1 减小通信开销
    • scheme 2.2 节省了内存开销,但是需要更多的通信

    5. 实验

    • 使用的数据集:PEOPLE、LETTER-RECOGNITION、CONNECT-4

    6. Conclusion

    • 三种不同的并行schemes
    • poor load-balancing的问题

    相关文章

      网友评论

          本文标题:Parallel induction algorithms fo

          本文链接:https://www.haomeiwen.com/subject/fnmvlttx.html