美文网首页
storm 总结

storm 总结

作者: 正居明阳 | 来源:发表于2018-05-31 13:05 被阅读0次

Topology 负责整个计算图

每个节点是一个component,每个节点可以有1到多个 stream,每个stream内部是tuple(可以有多个字段,需要declare字段名字)

节点之间的关系可以通过componentid或者streamid来关联

有些数据的shuffle需要制定使用tuple中的某几个field,作为partition key

一个节点在提交任务的时候,可以设置并发度,比如使用多少个task来并行执行

整体提交的是topology,

一般一个实时流的模式,需要在某些节点内存(或者一个外部数据库,比如redis)保存一个临时变量 做一些统计使用,

每过一段时间,需要把这个临时变量清空,并输出分段的统计结果,比如按天统计某个指标

不能一直在内存中存着,否则会爆的

但是需要确保的是,输入数据是按顺序来的,而不是无序的,否则,对于storm计算来说,必须得等到整个停止,才能计算出最终结果了

所以,storm的输入数据 需要 保证是有序的,或者大的粒度上是有序的,比如,两天的数据是有序的,但是同一天内的数据不需要有序,这样,可以做按天统计;

参考数据:《storm源码分析》

相关文章

  • storm 总结

    Topology 负责整个计算图 每个节点是一个component,每个节点可以有1到多个 stream,每个st...

  • storm问题总结

    在Storm UI上,有大量Failed数据,且往往是一旦开始有Fail数据,则Fail数据越积越多 整体事件端到...

  • storm 问题总结

    问题1: host没同步,机器之间通信有问题 解决办法:同步hosts即可 问题2: zk连接数限制 任务跑了一段...

  • 大数据基础知识学习-----Storm学习笔记

    Storm学习笔记总结 Storm概述 离线计算是什么 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、...

  • 大数据基础知识学习-----Storm学习笔记(一)概述

    Storm学习笔记总结 Storm概述 离线计算是什么 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、...

  • Storm入门

    Storm 基本介绍 什么是 Storm 首先Storm是Apache顶级项目之一Storm 官网 Storm 是...

  • java大数据之storm

    一、Storm简介 1.1 Storm是什么 Apache Storm(http://storm.apache.o...

  • Storm流分组源码分析

    本文不是停留在字面上去总结Storm的流分组方式,而是列出Storm流分组实现的源码位置,看了源码,对各种流分组也...

  • Apache Storm

    Apache Storm Apache Storm Use Cases Real Time Storm Proje...

  • Storm 性能优化

    目录 场景假设 调优步骤和方法 Storm 的部分特性 Storm 并行度 Storm 消息机制 Storm UI...

网友评论

      本文标题:storm 总结

      本文链接:https://www.haomeiwen.com/subject/cldqsftx.html