美文网首页
【Storm的简介】

【Storm的简介】

作者: 热血趁年华 | 来源:发表于2018-09-02 16:55 被阅读0次

storm分布式实时计算框架,在整个程序中,spout接收数据源并封装数据为tuple,然后将tuple发送给bolt处理,处理完数据后可以发送到下一个bolt中再处理也可以直接进行外部存储。那么这中间就涉及到一个任务处理的容错机制,和tuple发送的分配机制了。

核心概念

Input data source:数据来源,一般有hdfs,kafka,hive,hbase等等

spout:storm的处理数据源类,获取数据,并封装数据为tuple

bolt:storm的核心处理逻辑,

Tuple:数据结构,storm中的数据处理以tuple为基本单位,数组结构

Nimbus:storm集群中的master节点的称呼,主要是管理storm任务

Supervisor:集群的从节点称呼,具体处理数据的类

Zookeeper:分布式协调服务,在集群中感知supervisor的状态,以便nimbus分配资源

Topology;storm的应用程序

Bolte的分配策略

目前storm支持的分配策略有8中,随机分配,指定分配,按相同的字段分配等,

Topology应用程序

自定义类继承BaseRichSpout,open方法用来初始化spout的输出收集器SpoutOutputCollector,    nextTuple方法用来封装tuple并又输出收集器发送,declareOutputFields方法用来定义发送的tuple消息元祖的字段名字。

自定义类继承BaseRichBolt,prepare方法用来初始化OutputCollector输出收集器,execute方法用来获取spout发送的tuple元祖并处理后由收集器发送,declareOutputFields方法用来定义输出字段的名字。

自定义main类,初始化TopologyBuilder类,设置spout,bolt和config信息,对于spout和bolt需要设置其并行度,bolt需要设置其分配策略,并制定tuple的接收来之哪个bolt.

storm的容错机制

容错机制就是动态感知tuple的处理结果,当tuple处理失败的话能够重新发送处理,当我们封装tuple时可以传递一个唯一ID.

相关文章

  • java大数据之storm

    一、Storm简介 1.1 Storm是什么 Apache Storm(http://storm.apache.o...

  • storm简介

    Storm:Apache Storm is a free and open source distributed ...

  • Storm 简介

    Storm是一个分布式的,可靠的,容错的数据流处理系统。它会把工作任务委托给不同类型的组件,每个组件负责处理一项简...

  • storm简介

    概述 Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于...

  • Storm简介

    Storm是一个开源的分布式实时计算框架,可以简单、可靠的方式进行大数据流处理。通常用于实时分析,在线机器学习,次...

  • 【Storm的简介】

    storm分布式实时计算框架,在整个程序中,spout接收数据源并封装数据为tuple,然后将tuple发送给bo...

  • Apache Storm简介

    Apache Storm简介 转载: https://www.w3cschool.cn/apache_storm/...

  • storm

    Storm是什么Storm官方网站有段简介Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易...

  • Storm学习笔记

    Storm简介 Storm是什么 Storm是Twitter开源的一个分布式的实时计算系统,用于数据的实时分析,持...

  • Storm核心组件、编程模型

    Storm简介storm是用来做实时计算的框架,所以介绍storm之前需要知道什么是流式计算。流式计算:数据实时产...

网友评论

      本文标题:【Storm的简介】

      本文链接:https://www.haomeiwen.com/subject/wsemwftx.html