这本书主要介绍了一些常用的工具如数据分析pandas、机器学习scikit-learn、安装部署docker技术、消息队列、实时数据监控ELK。以及如何借用这些工具构建实时机器学习系统。
构建实时机器学习系统思路
- 不重复造轮子
- 没有模型是完美的,随着时间的推移,需要不断改进模型
- 重视上下游生态 ,需要方便解释和学习
衡量机器学习模型
image.png时效性分类
根据时效性,机器学习大致分为三种模式:硬实时、软实时、批处理
硬实时
定义:接收到请求时,马上
对请求做出响应
应用场景:网页浏览、在线游戏、高频交易等对时效性要求非常高的领域
技术实现:
软实时
定义:接收到请求时,立即开始
对响应进行处理,在较短时间内进行反馈
应用场景:物流运输、较为频繁的数量金融交易场景
技术实现:
可以借助已有开源技术storm或flink等
批实时
定义:批到达的数据进行实时处理
应用场景:处于模型训练和数据加工上场景。例如,对于数量金融等场景,从业人员往往需要对一定时间窗口中出现的成交量进行加总;对于气象预测等场景,单位时间窗口中的降雨量是进行预测的重要指标;对于社交舆情分析,从业人员需要对一定时间窗口中的关键词进行汇总分析。
技术实现:
可借助的开源技术spark streamig
未来
serveless和深度学习
深度学习的难点
- 解释性工具缺失
- 应用场景限制,需要大量的数据
- 模型训练成本限制,需要高性能计算
网友评论