美文网首页
2018-12-10 大数据学习

2018-12-10 大数据学习

作者: Bitson | 来源:发表于2018-12-10 22:50 被阅读0次

最近少写了日记,今天做了两件事

1. 听了linkin上的一个流数据处理的课程,主要是一些基本概念和四个case study,分别针对不同的需求设计流处理架构,链接在这里。有几点比较印象深刻:

- 课程里做架构的方法论值得学习,流程是这样的,分析问题,勾勒出解决方案,技术选型,设计出架构(技术选型往上套),标记关键问题这几个步骤

- 其中讲到将服务的数据和状态存储放到一个中心存储集群中,其中服务是无状态的,并且在load balancer后面。

- 流处理系统中几个需要考虑的问题,guaranteed delivery,ordering guarantees,requery data from earlier point,redundancy,scalability

- 机器学习利用线下数据来生成模型,并在流处理中应用模型,可以利用spark中的broadcast来广播模型。

- 模型怎么样生成由数据科研人员来做(effectiveness),大数据架构师只负责数据处理的架构,使得模型的生成和利用变得有效率(efficiency)

- 推荐引擎的大概架构,最总推荐 = 固定推荐(与选定产品相关的产品推荐列表) + 动态推荐(与用户行为,例如click stream相关的产品推荐)

- 架构中各种临时状态都用in memory数据库来存储,以加快查询速度

- 如果需要顺序接受事件,就需要将同一个user session中的事件发送到同一个kafka partition中

- 并行处理的最佳实践,数据存储在中心存储中,存储集群必须可以横向扩展;服务是无状态的,状态存储在数据库中,这使得服务可以横向扩展;服务部署在负载均衡后面;

- 实时手机优惠券推送系统,实时位置数据和历史数据模型的结合使用

- 各种集群的管理需要有管理系统来管理

2. 阅读到一篇文章,主要讲了几个点

- yahoo 的新一代消息系统 pulsar,是一个容器化的云原生流数据系统,其中将计算和存储分离,一层是无状态的消息服务层,一层是消息存储层,这样两层可以各自横向扩展,并且消息存储可以存储在各种云数据存储服务中,所以说是云原生。计算和存储的分离,使得pulsar更容易部署到容器中(消息服务部署到容器中,且可以极速扩容)。

- 计算框架的批流一体化,对于pulsar来说,流计算使用消息服务层,当数据落到存储层的时候就成为了历史数据,给批处理使用,统一了数据的接口

相关文章

  • 第三次作业

    2018-12-10

  • 2018-12-10 大数据学习

    最近少写了日记,今天做了两件事 1. 听了linkin上的一个流数据处理的课程,主要是一些基本概念和四个case ...

  • RNA-seq

    --------------- Nickier 2018-12-10 --------------- RNA 1....

  • 人欲如水流,不可灭,只可导

    姓名:赵磊 2018-12-10 【日精进打卡第212天】 【知~学习】 《六项精进》诵读2遍共228遍 《大学》...

  • 一天中最适合学习的黄金时间段 提醒孩子 别辜负时光……

    一天中最适合学习的黄金时间段 提醒孩子 别辜负时光 齐鲁晚报 2018-12-10 关注 什么时候学习效率最高?当...

  • 2018-12-10

    一天中最适合学习的黄金时间段 提醒孩子 别辜负时光 齐鲁晚报 2018-12-10 关注 什么时候学习效率最高?当...

  • 2018-12-11

    2018-12-10 21:28 解晓,韵之声艺术培训学校 【日精进打卡第18天】 【知~学习】 《六项精进》背了...

  • 2018-12-10

    2018-12-10 姓名:张正强 公司:江阴嘉鸿橡塑科技有限公司 【日精进打卡第️️54天】 【知~学习】 《六...

  • 2018-12-11

    2018-12-10 姓名:王相松 公司:扬州滋奇餐饮有限公司 【日精进打卡第28天】 【知~学习】 诵读【六项精...

  • 《电脑收纳7天训练营》学习笔记

    学习时间:2018-12-10 简介:这是我在印象笔记>印象学院购买的一个课程,价格9.9元倒也不贵。 这个课程介...

网友评论

      本文标题:2018-12-10 大数据学习

      本文链接:https://www.haomeiwen.com/subject/avkjhqtx.html