美文网首页
Parallel and Distributed Sparse

Parallel and Distributed Sparse

作者: 世间五彩我执纯白 | 来源:发表于2016-01-28 16:19 被阅读0次

    1. Abstract

    • 解决分布式大规模稀疏优化问题
    • prox linear 算法的分布式实现
    • GRock:并行贪心的coordinate-block descent算法

    2. Introduction

    2.1 稀疏优化问题的两个结构特征:

    1. 目标函数可分
    2. 数据近似正交性

    2.2 ADMM的可扩展性不好:

    1. 将数据切分到不同节点并不能减少ADMM的计算时间
    2. 因为数据块的增加会导致需要的迭代数增加
    3. 小数据块节省的时间会被迭代数的增加而抵消

    2.3. 并行Coordinate descent:

    1. Shotgun:Parallel coordinate descent for l1-regularized loss minimization
    2. Scaling up coordinate descent algorithms for large l1 regularization problems. 并行CD算法的框架
    3. Feature clustering for accelerating parallel coordinate descent. 迭代和随机地选择多个block,在正交条件下,本文的方法需要更少的迭代轮数,而且每轮迭代的开销也几乎不变

    3. Problem formulation和数据并行

    3.1 三种分布式策略

    • 行block分布式
    • 列block分布式
    • 通用block分布式,行和列都切分

    4. Prox-linear的分布式实现

    • 分布式Lasso
    • 分布式稀疏逻辑回归

    5. 并行贪心CD

    4.1. CD

    • 每轮迭代只更新一个coordinate(或者block),其他保持不变
    • Cyclic CD:轮流更新
    • Random CD:随机选择coordinate,分析基于期望的目标值
    • Greedy CD. 选择merit value最大的coordinates,比如梯度向量中绝对值最大的坐标
    • Mixed CD. 混合上面几种

    4.2. GRock

    • 贪心的coordinate-block descent方法
    • P个block中最好的坐标被选中

    4.3. GRock在稀疏优化的优点

    • CD每次只更新很少的坐标,因此与prox-linear和梯度算法相比,需要更多的迭代
    • 但是稀疏优化问题中,Greedy CD的坐标选择经常发生在非0的区域

    5. 计算复杂度分析

    • 几种算法每轮迭代的开销基本差不多

    6. Conclusion

    • prox-linear算法的分布式实现
    • GRock:解决大规模稀疏优化问题
    • 利用稀疏优化问题的两个结构特点:目标函数可分,数据大部分正交

    相关文章

      网友评论

          本文标题:Parallel and Distributed Sparse

          本文链接:https://www.haomeiwen.com/subject/bgkjkttx.html