美文网首页
storm流计算框架之概念篇

storm流计算框架之概念篇

作者: 起个什么呢称呢 | 来源:发表于2018-08-06 16:43 被阅读41次

Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。虽然Storm是无状态的,它通过Apache ZooKeeper管理分布式环境和集群状态。它很简单,您可以并行地对实时数据执行各种操作。

storm VS hadoop

Apache Storm优势

Storm是开源的,强大的,用户友好的。它可以用于小公司和大公司。

Storm是容错的,灵活的,可靠的,并且支持任何编程语言。

允许实时流处理。

Storm是令人难以置信的快,因为它具有巨大的处理数据的力量。

Storm可以通过线性增加资源来保持性能,即使在负载增加的情况下。它是高度可扩展的。

Storm在几秒钟或几分钟内执行数据刷新和端到端传送响应取决于问题。它具有非常低的延迟。

Storm有操作智能。

Storm提供保证的数据处理,即使群集中的任何连接的节点死或消息丢失。

组件功能图

拓扑

Spouts和Bolts连接在一起,形成拓扑结构。实时应用程序逻辑在Storm拓扑中指定。简单地说,拓扑是有向图,其中顶点是计算,边缘是数据流。

简单拓扑从spouts开始。Spouts将数据发射到一个或多个Bolts。Bolt表示拓扑中具有最小处理逻辑的节点,并且Bolts的输出可以发射到另一个Bolts作为输入。

Storm保持拓扑始终运行,直到您终止拓扑。Apache Storm的主要工作是运行拓扑,并在给定时间运行任意数量的拓扑。

任务

现在你有一个关于Spouts和Bolts的基本想法。它们是拓扑的最小逻辑单元,并且使用单个Spout和Bolt阵列构建拓扑。应以特定顺序正确执行它们,以使拓扑成功运行。Storm执行的每个Spout和Bolt称为“任务”。简单来说,任务是Spouts或Bolts的执行。在给定时间,每个Spout和Bolt可以具有在多个单独的螺纹中运行的多个实例。

进程

拓扑在多个工作节点上以分布式方式运行。Storm将所有工作节点上的任务均匀分布。工作节点的角色是监听作业,并在新作业到达时启动或停止进程。

流分组

数据流从Spouts流到Bolts,或从一个Bolts流到另一个Bolts。流分组控制元组在拓扑中的路由方式,并帮助我们了解拓扑中的元组流。有四个内置分组,如下所述。

随机分组

在随机分组中,相等数量的元组随机分布在执行Bolts的所有工人中。下图描述了结构。

随机分组

字段分组

元组中具有相同值的字段组合在一起,其余的元组保存在外部。然后,具有相同字段值的元组被向前发送到执行Bolts的同一进程。例如,如果流由字段“字”分组,则具有相同字符串“Hello”的元组将移动到相同的工作者。下图显示了字段分组的工作原理

字段分组 全局分组 所有分组

相关文章

  • storm流计算框架之概念篇

    Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它...

  • 18. Storm基础

    1. Storm介绍: Storm是实时流计算框架。企业中典型实时分析框架搭建模式: Flume + Kafka ...

  • 实时流计算框架——Storm

    CentOS安装 官方下载地址http://storm.apache.org/downloads.html vim...

  • 大数据框架:Storm从入门到放弃

    一、storm相关概念 1、大数据框架对比 类型实时性高级框架hadoop批处理离线Thridentstorm流处...

  • 32 storm 单词计数

    上一篇 简单看 storm, 主要简单讲解了storm 的集群架构、核心概念、并行度、流分组,本篇利用 storm...

  • Storm核心组件、编程模型

    Storm简介storm是用来做实时计算的框架,所以介绍storm之前需要知道什么是流式计算。流式计算:数据实时产...

  • Storm核心组件、编程模型

    Storm简介storm是用来做实时计算的框架,所以介绍storm之前需要知道什么是流式计算。流式计算:数据实时产...

  • Storm核心组件、编程模型

    Storm简介storm是用来做实时计算的框架,所以介绍storm之前需要知道什么是流式计算。流式计算:数据实时产...

  • Storm核心组件、编程模型

    Storm简介storm是用来做实时计算的框架,所以介绍storm之前需要知道什么是流式计算。流式计算:数据实时产...

  • 40Storm

    Storm框架介绍流式处理框架storm是个实时的,分布以及具备高容错的计算系统 storm进程常驻内存 stor...

网友评论

      本文标题:storm流计算框架之概念篇

      本文链接:https://www.haomeiwen.com/subject/tnzesftx.html