1. Abstract
C4.5决策树的并行
2. Intro
- 决策树在大数据集上计算开销太大
- 找到最优的决策树是NP难问题
3. 顺序C4.5
- 数据的属性是连续或者离散的
- 步骤:计算每个属性的information gain;选择带来最大信息增益的属性作为当前树的node;决定branch node;将数据分配到相应的branch上;对每个branch重复执行以上步骤
- C4.5实现的两个难点:对数据排序;处理连续属性
- 对于连续数据,C4.5使用相邻item的属性的较小值作为切分点
4. C4.5的并行实现
- 不同node在不同processor上并行处理,区别是切分数据的方法不一样,这影响了通信开销
4.1. Scheme 1
- 所有processor保存一份数据副本
- master processor构建树一直到leaves的数量等于processor的数量,然后每个processor并行处理
4.2. Scheme 2.1 and 2.2
- 切分数据到不同processor
- master processor构建树一直到leaves的数量等于processor的数量,然后将相应的数据发送到每个processor
- scheme 2.1和2.2处理连续属性的方法不一样。2.1中所有连续属性的值都duplicate到每个processor;2.2中master与其他processor通信,传递每个processor需要的local values
4.3. 不同shemes的分析
- scheme 1的通信开销最小,但是内存开销大
- scheme 2.1 减小通信开销
- scheme 2.2 节省了内存开销,但是需要更多的通信
5. 实验
- 使用的数据集:PEOPLE、LETTER-RECOGNITION、CONNECT-4
6. Conclusion
- 三种不同的并行schemes
- poor load-balancing的问题
网友评论