31 简单看 storm

作者: 逐暗者 | 来源:发表于2017-09-16 17:50 被阅读0次

    上一篇 带你利用zookeeper 分布式锁解决缓存重建冲突, 主要讲解了nginx 并发更新缓存时导致的缓存重建及数据不一致产生及利用zookeeper 分布式锁 解决的方案实现。本篇主要讲解前面虽然做了三级缓存方案,但是针对相同资源的大量请求,依然会导致整个系统崩溃,这种现象称为数据热点问题。那么怎么解决热点问题呢,当然是实现数据的快速预热、对热点数据能够实时感知,然后保证缓存热点数据自动降级。这时候呢, 首先我们需要知道哪些是热点数据,同时要保证实时性、稳定性,这里我们就选择标题说的storm 技术去解决。

    关于storm 的介绍和概念,网上太多了,这里不是重点。下面讲讲storm 集群架构、核心概念、并行度、流分组。

    storm 集群架构

    storm 集群架构就不得不说以下几个名词:Nimbus,Supervisor,ZooKeeper,Worker,Executor,Task

    • Nimbus storm
      集群架构的主节点,负责元数据的维护、资源调度,实时计算作业的入口
    • Supervisor
      负责监听工作节点上已经分配的主机作业,启动和停止Nimbus已经分配的工作进程
    • ZooKeeper
      集群元数据存储,包含拓扑信息topologies、任务分配信息assignments及各类心跳信息
    • Worker
      具体处理Spout/Bolt逻辑的进程
    • Executor
      在一个worker JVM进程中运行着多个Java线程。一个executor线程可以执行一个或多个tasks
    • Task
      Worker中每个Spout/Bolt线程,每个Spout和Bolt在集群中会执行许多任务,每个任务对应一个线程执行
    storm 集群架构关系

    storm 核心概念

    同样要知道以下几个名词代表什么:Topology,Spout,Bolt,Tuple,Stream

    • Topology
      一个运行着的Job,由 spout 和 bolt 组成,包含着处理逻辑及数据流向。
    • Spout
      Topology流的来源,通常Spout会从外部数据源(队列、数据库等)读取数据,然后封装成Tuple形式,之后发送到Stream中。Spout负责从数据源拉取数据,相当于整个系统的生产者。
    • Bolt
      负责消费数据并将tuple发送给下一个计算单元。Bolt处理输入的Stream,并产生新的输出Stream。Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作
    • Tuple
      一次消息传递的基本单元,就是一条数据,每条数据都会被封装在tuple中,在多个spout和bolt之间传递
    • Stream
      就是一个流,务虚的一个概念,抽象的概念,源源不断过来的tuple,就组成了一条数据流
    storm 核心概念关系图

    注:每个task就跑这一个spout或者bolt

    storm 并行度

    其实没什么好讲的,storm 的并行度是task,为什么不是Executor 呢,认为是Executor 的,因为默认的 一个Executor 对应一个task ,但是 一个Executor 可以有多个task,task 才是最小的计算单元,所以并行度是task

    storm 流分组

    流分组其实定义的是task 到 task 之间的数据流向关系

    流分组

    流分组的策略也有很多种:
    Shuffle Grouping :随机分组,尽量均匀分布到下游Bolt中
    将流分组定义为混排。这种混排分组意味着来自Spout的输入将混排,或随机分发给此Bolt中的任务。shuffle grouping对各个task的tuple分配的比较均匀。

    Fields Grouping :按字段分组,按数据中field值进行分组;相同field值的Tuple被发送到相同的Task
    这种grouping机制保证相同field值的tuple会去同一个task

    All grouping :广播
    广播发送, 对于每一个tuple将会复制到每一个bolt中处理。

    Global grouping :全局分组,Tuple被分配到一个Bolt中的一个Task,实现事务性的Topology。
    Stream中的所有的tuple都会发送给同一个bolt任务处理,所有的tuple将会发送给拥有最小task_id的bolt任务处理。

    None grouping :不分组
    不关注并行处理负载均衡策略时使用该方式,目前等同于shuffle grouping,另外storm将会把bolt任务和他的上游提供数据的任务安排在同一个线程下

    Direct grouping :直接分组 指定分组
    由tuple的发射单元直接决定tuple将发射给那个bolt,一般情况下是由接收tuple的bolt决定接收哪个bolt发射的Tuple。这是一种比较特别的分组方法,用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。 只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。消息处理者可以通过TopologyContext来获取处理它的消息的taskid (OutputCollector.emit方法也会返回taskid)。

    注:比较常用的是Shuffle Grouping、Fields Grouping这两种

    以上就是本章内容,如有不对的地方,请多多指教,谢谢!

    为了方便有需要的人,本系列全部软件都在 https://pan.baidu.com/s/1qYsJZfY

    下章预告:主要 结合一个单词计数案例来从代码层面认识storm

    作者:逐暗者 (转载请注明出处)

    相关文章

      网友评论

        本文标题:31 简单看 storm

        本文链接:https://www.haomeiwen.com/subject/dlmysxtx.html