背景 我们小组主要负责Alpha机器学习平台(以下简称Alpha)的设计与实现工作,前段时间算法同学提出一个需求,...[作者空间]
背景 算法同学经常要在我们的Alpha机器学习平台(以下简称Alpha)上启停实验,但由于机器学习任务耗费资源较多...[作者空间]
环境准备 1. GPU 节点准备 GPU共享依赖NVIDIA驱动和nvidia-docker2,需要事先安装。NV...[作者空间]
前言 人在做自己喜欢的事情时,时光总是过得很快。不知不觉到公司已经两年多了,在这两年的时间里,我做了很多“有趣又有...[作者空间]
背景 我们机器学习平台上的任务最初是通过 Marathon 启动在Mesos集群上的,分布式训练框架是 ps-li...[作者空间]
背景 我们公司作为一个业内领先的新闻资讯类公司,基于机器学习的推荐排序、自然语言处理、图像识别等算法能力必不可少,...[作者空间]
今天在尝试将TensorFlow训练部署到K8s GPU机器上时,发现部分实例启动不起来,报出下面的错误: 从日志...[作者空间]
背景 两年前入职公司的时候,我们的机器学习任务都是启动在Mesos集群上,当时使用的训练框架还是ps-lite。一...[作者空间]
不知不觉,从去年9月份入职到现在的公司,已经过去一年了。这一年付出了很多,也收获了很多,在此想把这一年的经历做一下...[作者空间]
背景 从下面两张图中可以看到,有大量实验资源利用率不足50%(当前为23个,2019.08.21数据,占比约42....[作者空间]
背景 离线Metrics是Alpha平台中很重要的一个功能,通过根据筛选条件选择一些样本数据,实时离线预测训练程序...[作者空间]
背景 之前机器学习平台可用机器数量为324台,其中CPU机器289台,GPU机器35台。但由于一台机器上只能部署一...[作者空间]
简单看一下各个类以及它们之间的关系 Postoffice是全局管理类,单例模式创建。管理当前节点角色、其他节点的连...[作者空间]
下载安装包 编译 编译出错make[2]: *** [message.lo] Error 1make[1]: **...[作者空间]
brew安装 查看安装目录 配置环境变量 查看protobuf版本 参考文档:https://www.jiansh...[作者空间]
下载PS-Lite源码 安装CLion 编译源码 make 编译出错 make: *** [/Users/admi...[作者空间]
入门 调试PS-Lite 一种调试方式是记录所有的通信日志。可以通过指定环境变量来实现: :记录连接信息 :记录所...[作者空间]
概述 ps-lite旨在构建高可用分布式的机器学习应用。在ps-lite框架中,多个节点运行在多台物理机器上用于处...[作者空间]
华丽丽跳坑了…今天用分布式的ps跑了线性规划…前期环境的搭建踩了不少坑,在此记录一下。环境:Mac OS 10.1...[作者空间]
小叽导读:文章提出一整套创新算法与架构,通过对TensorFlow底层的弹性改造,解决了在线学习的弹性特征伸缩和稳...[作者空间]