Parallel induction algorithms fo

Parallel induction algorithms fo

作者: 世间五彩我执纯白 | 来源:发表于2016-04-08 17:08 被阅读0次

1. Abstract

C4.5决策树的并行

2. Intro

决策树在大数据集上计算开销太大
找到最优的决策树是NP难问题

3. 顺序C4.5

数据的属性是连续或者离散的
步骤：计算每个属性的information gain；选择带来最大信息增益的属性作为当前树的node；决定branch node；将数据分配到相应的branch上；对每个branch重复执行以上步骤
C4.5实现的两个难点：对数据排序；处理连续属性
对于连续数据，C4.5使用相邻item的属性的较小值作为切分点

4. C4.5的并行实现

不同node在不同processor上并行处理，区别是切分数据的方法不一样，这影响了通信开销

4.1. Scheme 1

所有processor保存一份数据副本
master processor构建树一直到leaves的数量等于processor的数量，然后每个processor并行处理

4.2. Scheme 2.1 and 2.2

切分数据到不同processor
master processor构建树一直到leaves的数量等于processor的数量，然后将相应的数据发送到每个processor
scheme 2.1和2.2处理连续属性的方法不一样。2.1中所有连续属性的值都duplicate到每个processor；2.2中master与其他processor通信，传递每个processor需要的local values

4.3. 不同shemes的分析

scheme 1的通信开销最小，但是内存开销大
scheme 2.1 减小通信开销
scheme 2.2 节省了内存开销，但是需要更多的通信

5. 实验

使用的数据集：PEOPLE、LETTER-RECOGNITION、CONNECT-4

6. Conclusion

三种不同的并行schemes
poor load-balancing的问题

相关文章

网友评论

本文标题：Parallel induction algorithms fo

本文链接：https://www.haomeiwen.com/subject/fnmvlttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Parallel induction algorithms fo|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！