基于 PredictionIO 搭建全栈式机器学习平台

作者: Vincent_fb7c | 来源:发表于2018-10-12 16:25 被阅读0次

基于 PredictionIO 搭建全栈式机器学习平台
Docker搭建全栈式应用示例（三）管理篇
Apache PredictionIO机器学习和智能推荐服务搭建
使用crontab调度hadoop任务和机器学习任务的正确姿势
Docker搭建全栈式应用示例（二）构建篇
库币IEO第三个项目Chromia，全栈分布式开发平台
基于mpvue的微信小程序全栈保姆式教程一
分布式平台搭建
全栈开源平台框架搭建
Django系列教程(1)

一. 前言

1. PredictionIO是什么?

我们负责打理基础结构，新数据进来的时候我们会对模型进行重新训练。我们还负责处理算法。它并不是黑箱算法。 ---PredictionIO CEO

PredictionIO是一个用Scala编写的开源机器学习服务器应用，可以帮助你方便地使用REST API搭建推荐引擎。它同时也提供了客户端SDK，封装了REST API。Java、Python、Ruby和PHP都有客户端SDK。PredictionIO的核心使用Apache Mahout。Apache Mahout是一个可伸缩的机器学习库，它提供众多聚集、分类、过滤算法。Apache Mahout可以在分布式的Hapoop集群上运行这些算法。作为用户，我们不需要操心这些细节。我们只需安装PredictionIO然后使用它就是了。

2. PredictionIO有哪些特性

模型存储:
- 模型存储在数据库中以大数据格式存储
数据库支持
- mysql postgresql hbase elasticsearch
RestfulAPI支持
- 接受client 程序编码调用支持 scala 和python
- 支持 batchpredict 批量文件的请求调用
算法支持
- 基本支持集成所有算法，spark mllib xgboost deeplearning4j libtensorflow
  并且支持同时多个算法串行预测
  算法训练的超参数是写在配置文件json中，遇到模型修改，直接修改配置文件的模型超参数即可然后重新build train deploy 即可

3. PredictionIO优点

可以减小研发工期
可监控
可以将模型部署成在线服务可以被实时调用预测

4. PredictionIO缺点

1.服务端暂时只有java/scala

prediction 依赖spark 太重
predictionio 对多个模型同时部署还不够友好
prediction的model存储版本控制比较简陋

5. PredictionIO架构介绍

PredictionIO数据流

PredictionIO 由三大组件构成:

PredictionIO platform - our open source machine learning stack for building, evaluating and deploying engines with machine learning algorithms.
Event Server - our open source machine learning analytics layer for unifying events from multiple platforms
Template Gallery - the place for you to download engine templates for different type of machine learning applications

Event Server

作用: 为event搜集数据

Event Server collects data from your application, in real-time or in batch. It can also unify data that are related to your application from multiple platforms. After data is collected, it mainly serves two purposes:

Provide data to Engine(s) for model training and evaluation

Offer a unified view for data analysis

image.png

Engine

Predictionio 大致分为五大组件

image.png

PredictionIO使用Event Server来导入数据并存储到HBase中；
随后这些数据进入一个基于Spark的PredictionIO Engine，PredictionIO Engine可能包括一个用于导入数据的Data Source，一个用于数据处理ETL等的Data Preparator；同时，一个推荐系统可能包括多个算法，因此数据需要放到不同的Algorithm中做training；
在做完training之后生成模型，这里用户可以根据需求来编写持久化方法，确定数据储存的位置，是本地文件系统亦或是HDFS；
有了这些model之后，下一步需要做的是serving以响应用户的请求，接受用户的一些查询从而生成结果。

模型训练

EVENT响应query

二. PredictionIO 安装

安装中的坑

To be continued

三. PredictionIO sample

http://predictionio.apache.org/templates/recommendation/quickstart/

四. PredictionIO命令集

pio-start-all : 启动命令
- 如果您使用PostgreSQL或MySQL，请运行以下命令启动PredictionIO Event Server：pio eventserver ＆
pio-stop-all: 停服命令
pio status: 查看状态
- 访问http://localhost:7070/ 返回 {"status":"alive"}
jps -l : 命令查看已经启动的
pio app {}: 启动app
pio app list: app list

Reference

网友评论

本文标题：基于 PredictionIO 搭建全栈式机器学习平台

本文链接：https://www.haomeiwen.com/subject/qpiwaftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

基于 PredictionIO 搭建全栈式机器学习平台

一. 前言

1. PredictionIO是什么?

2. PredictionIO有哪些特性

3. PredictionIO优点

4. PredictionIO缺点

5. PredictionIO架构介绍

PredictionIO 由三大组件构成:

Event Server

Engine

二. PredictionIO 安装

推荐 docker 安装

安装中的坑

三. PredictionIO sample

四. PredictionIO命令集

Reference

相关文章

基于 PredictionIO 搭建全栈式机器学习平台

Docker搭建全栈式应用示例（三）管理篇

Apache PredictionIO机器学习和智能推荐服务搭建

使用crontab调度hadoop任务和机器学习任务的正确姿势

Docker搭建全栈式应用示例（二）构建篇

库币IEO第三个项目Chromia，全栈分布式开发平台

基于mpvue的微信小程序全栈保姆式教程一

分布式平台搭建

全栈开源平台框架搭建

Django系列教程(1)

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读