美文网首页大数据,机器学习,人工智能玩转大数据大数据
大数据架构简述流处理、批处理、交互式查询

大数据架构简述流处理、批处理、交互式查询

作者: 叫我老村长 | 来源:发表于2020-03-10 14:06 被阅读0次

我们将大数据处理按处理时间的跨度要求分为以下几类

基于实时数据流的处理,通常的时间跨度在数百毫秒到数秒之间

基于历史数据的交互式查询,通常时间跨度在数十秒到数分钟之间

复杂的批量数据处理,通常的时间跨度在几分钟到数小时之间

1.流处理
流是一种数据传送技术,它把客户端数据变成一个稳定的流。正是由于数据传送呈现连续不停的形态,所以流引擎需要连续不断处理数据

流处理的主要应用场景:金融领域和电信领域

1.1 Stom
Storm是一个免费开源、分布式、高容错的实时计算系统。

Storm主要分为两种组件Nimbus和Supervisor。这两种组件都是快速失败的,没有状态。任务状态和心跳信息等都保存在Zookeeper上的,提交的代码资源都在本地机器的硬盘上。
1)Nimbus负责在集群里面发送代码,分配工作给机器,并且监控状态。全局只有一个。
2)Supervisor会监听分配给它那台机器的工作,根据需要启动/关闭工作进程Worker。每一个要运行Storm的机器上都要部署一个,并且,按照机器的配置设定上面分配的槽位数。
3)Zookeeper是Storm重点依赖的外部资源。Nimbus和Supervisor甚至实际运行的Worker都是把心跳保存在Zookeeper上的。Nimbus也是根据Zookeerper上的心跳和任务运行状况,进行调度和任务分配的。
4)Storm提交运行的程序称为Topology。
5)Topology处理的最小的消息单位是一个Tuple,也就是一个任意对象的数组。
Topology由Spout和Bolt构成。Spout是发出Tuple的结点。Bolt可以随意订阅某个Spout或者Bolt发出的Tuple。Spout和Bolt都统称为component。

1.2 Spark Streaming
Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。

Spark Streaming的基本原理是将输入数据流以时间片(秒级)为单位进行拆分,然后以类似批处理的方式处理每个时间片数据

2.交互式查询(Adhoc Query)
在商业智能领域少量更新和大量扫描分析场景,目前是Impala+Kudu/Hive/Spark SQL/Greenplum Mpp数据库在混战。

3.批处理技术
3.1 MapReduce(Hadoop)
MapReduce模式的主要思想是自动将一个大的计算拆解成Map和Reduce

3.2 Spark
Spark的中间数据放到内存中,对于迭代运算效率更高。
Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。
Spark比Hadoop更通用
Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,Spark把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions操作。

相关文章

  • 大数据架构简述流处理、批处理、交互式查询

    我们将大数据处理按处理时间的跨度要求分为以下几类 1.流处理流是一种数据传送技术,它把客户端数据变成一个稳定的流。...

  • 玩转KafkaIO与Flink

    随着大数据 2.0 时代悄然到来,大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。近年来涌...

  • 推荐算法笔记07_工程实现与评估【上】

    推荐系统的数据流 典型数据流框架 批处理大数据架构 “分布式存储+Map Reduce”的架构只能批量处理已经落盘...

  • Spark on Kubernetes:Apache YuniK

    Apache Spark在一个平台上统一了批处理、实时处理、流分析、机器学习和交互式查询。尽管Apache Spa...

  • 数据处理系统的Lambda架构

    在数据处理的系统中,数据的处理模式分为三类:批处理、流式数据处理以及交互式处理。 批处理: 是把数据首先保存起来,...

  • RDBMS和MapReduce的区别

    RDBMSMapReduce数据大小GBPB数据存取交互式和批处理批处理数据更新多次读写多次读取,一次写入事务AC...

  • NSAsynchronousFetchRequest, NSBa

    批处理查询数据 多线程查询数据 用NSAsynchronousFetchRequest包裹NSFetchReque...

  • 大数据之Storm

    1、批处理与流处理 大数据分类两类:静态数据和动态数据。针对这两类数据的计算模式分别是批处理和流处理。 静态数据:...

  • 大数据之实时流Flink

    思维导图 思维导图 宏观之实时流架构 实时流之lamda架构 分析: 批处理层: 也就是大数据中的离线存储。它通过...

  • 构建Spark批处理和流处理应用前的数据准备

    我们将概览各种信息和数据源,理解他们的结构,从批处理到流处理介绍数据处理流水线,要点如下: 从批处理到流处理介绍数...

网友评论

    本文标题:大数据架构简述流处理、批处理、交互式查询

    本文链接:https://www.haomeiwen.com/subject/emdbchtx.html