美文网首页
Strom自学

Strom自学

作者: MosOucHunibyu | 来源:发表于2019-01-28 13:19 被阅读0次

简介:strom能实现高频数据和大规模数据的实时处理

Strom和hadoop的区别:

       H:大规模的离线批处理;S:实时数据处理

       H:MapReduce;S:Spout Bolt

Strom和spark

streaming的区别:

       小批处理,近似实时处理

Strom架构:类似于Hadoop的架构

Nimbus:主节点,负责task(任务)的纸牌和分发、资源的分配

Supervisor:从节点,可以启动多个Worker(可通过配置来指定),

       一个Topo可以运行多个在Worker智商,也可以通过配置来指定集群的从节点,负责执行任务的具体部分

       启动和停止自己管理的Worker进程

Worker:运行具体组件逻辑的进程

------------------------------分割线-------------------------------------------

Task:Spout和Bolt,worker中每一个Spout和Bolt的线程成为一个Task

ISpout:

概述:

核心interface,负责将数据发送到topology处理

Strom会跟踪Spout发出去的tuple的DAG,如果strom发现每一个tuple都在DAG中被处理了,会发送一个ack的消息给Spout,如果失败可以配置timeout,strom会发送一个fail小时给Spout

Tuple:message id

ack/fail/nexttuple是在同一个现场中执行,所以不用考虑线程安全方面

 核心方法:

             open(Map conf, TopologyContextcon,SpoutOutputCollector col):初始化操作

              close():资源释放操作

              nextTuple():发送数据

              fail(msgId): tuple处理失败,storm会反馈给spout一个消息,处理失败

实现类:BaseRichSpout(主要用的就是这个)、DRPCSpout、ShellSpout

IBolt:

       概述:

              职责:接受tuple处理,并进行相应的处理(filter/join/..)

hold住tuple在处理

IBolt会在一个运行的机器上创建,使用java序列化它,然后提交到主节点(nimbus)

回启动worker来序列化,调用prepare方法,然后才开始处理tuple

方法:

       prepare:初始化

       execute:处理一个tuple数据,tuple对象中包含了元数据信息

       cleanup:shutdown之前的资源清理操作

实现类:BaseRichBolt

相关文章

  • Strom自学

    简介:strom能实现高频数据和大规模数据的实时处理 Strom和hadoop的区别: H:大规模的离线批处理;...

  • Storm部署与运行

    环境配置 Strom 下载 首先从官网下载Strom压缩包,这里以最新的Strom1.2.2作为演示。 解压到/u...

  • 流式计算的代表:Storm,Flink,Spark Stream

    流式计算的代表:Storm,Flink,Spark Streaming Strom 1.Strom的主从架构 ni...

  • strom原理

    http://storm.apache.org/releases/current/Understanding-th...

  • Strom安装

    安装版本:apache-storm-1.1.0.tar 1.准备工作(1)安装jdk1.8(2)安装zookeep...

  • The wolven strom

    因为《巫师三》这个游戏我喜欢上了The wolven strom这首充满感情,旋律优美的歌曲。推荐大家去搜来听听...

  • 奇妙能力

    I saw the strom in the desert Saw the ocean kiss the shar...

  • 大数据Storm相比于Spark、Hadoop有哪些优势(摘录)

    一、可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom: 分布式实时计算系统,storm对...

  • 大数据Storm相比于Spark、Hadoop有哪些优势(摘录)

    一、可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom: 分布式实时计算系统,storm对...

  • Strom之WordCount

    Storm用来实时处理数据,特点:低延迟、高可用、分布式、可扩展、数据不丢失。提供简单容易理解的接口,便于开发。本...

网友评论

      本文标题:Strom自学

      本文链接:https://www.haomeiwen.com/subject/nkrajqtx.html