机器学习系统--Parameter Server

机器学习系统--Parameter Server

作者: zealscott | 来源:发表于2019-01-04 20:06 被阅读0次

机器学习系统--Parameter Server
ubuntu18.04下K8S安装记录
Parameter Server 2
[Dis/MLsys/net]Herring: Rethinki
[Dis/MLsys/net]Herring: Rethinki
Jenkins插件开发入门
parameter server 源码剖析
Parameter Server研究之MXNet使用
Parameter Server研究之ps-lite源码分析与开
分布式训练框架

Parameter Server简介

是一个以参数为中心的机器学习系统。

Observations

某些learning算法的模型复杂，参数很大
- Complex Models with Billions and Trillions of Parameters
- e.g. LDA
某些Learning过程呈现线性，需要同步
- Sequential ML jobs require barriers and hurt performance by blocking
- BSP model是我们想要的，但如何平衡性能？
容错很重要，尤其是参数的容错
- At scale, Fault Tolerance is required as these jobs run in a cloud where machines are unreliable and jobs can be preempted
- 大规模的机器学习算法参数很多，需要进行容错

设计思路

参数与训练数据分开存放
- Server:负责参数
- Worker:负责训练数据
提供同步计算与异步计算模式
- 灵活的consistency
- 用户选择
参数看作key-value pair进行备份
- Consistent hashing

体系架构

image-20190104195804671

主节点用来存放参数
取参数是按需pull，再将更新后的参数放回去

计算模式

Asynchronous tasks and Dependency

image-20190104195952007

Flexible Consistency

Up to the algorithm designer to choose the flexible consistency model
- 其实让编程变得更复杂
Trade-off between Algorithm Efficiency and System Performance
- 计算考虑
  - 异步可能是错的
- 性能方面
  - 异步更好

容错机制

使用一致性哈希和备份的方式

为什么不能用zookeeper？
- 数据量太大
前提：这个model是key-value pair，才能够被hash

讨论

GraphLab和PS中sequential一样吗?
- GraphLab强调数据点之间的顺序计算关系
- PS不考察训练数据点之间的关系，强调多次迭代之间的顺序关系
GraphLab中的consistency和PS中的 consistency是一样的吗?
- GraphLab中的consistency解决可串行问题
- PS中的consistency解决同步/异步计算问题

相关文章

机器学习系统--Parameter Server
Parameter Server简介是一个以参数为中心的机器学习系统。 Observations 某些learn...
ubuntu18.04下K8S安装记录
一、系统安装：ubuntu18.04 server 四台机器均安装ubuntu18.04 server 二、系统配...
Parameter Server 2
Parameter Server 后续思考 1.参数服务器有哪些容错措施？冗余机制前面说到，每个参数会在PS集群...
[Dis/MLsys/net]Herring: Rethinki
2021-07-08Herring: Rethinking the Parameter Server at Sca...
[Dis/MLsys/net]Herring: Rethinki
2021-07-11Herring: Rethinking the Parameter Server at Sca...
Jenkins插件开发入门
参考https://github.com/jenkinsci/agent-server-parameter-plu...
parameter server 源码剖析
首先调用Start(int customer_id, const char* argv0 =nullptr)。这个...
Parameter Server研究之MXNet使用
文章也同时在个人博客 http://kimihe.com/更新引言 Parameter Server (PS) ...
Parameter Server研究之ps-lite源码分析与开
文章也同时在个人博客 http://kimihe.com/更新引言 Parameter Server (PS) ...
分布式训练框架
一、主流框架：1、SparkMLlib2、Parameter Server3、All-Reduce框架（Tenso...

网友评论

本文标题：机器学习系统--Parameter Server

本文链接：https://www.haomeiwen.com/subject/mgnkrqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|机器学习系统--Parameter Server|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！