Spark Streaming实时流处理-1.初识实时流处理

Spark Streaming实时流处理-1.初识实时流处理

作者: Peacenloves | 来源:发表于2018-09-09 20:40 被阅读0次

Spark Streaming实时流处理-1.初识实时流处理
Spark学习之Spark Streaming（一）
Spark Streaming运行架构分析
Spark Streaming（一）入门介绍
python玩storm趟坑记
大数据实时流处理
Spark Streaming实时流处理项目
[译]Spark Streaming编程指南（一）
Spark Streaming 整合Kafka
武汉数道云，Spark Streaming实时流式数据处理，典型

目录

业务现状分析
实时流处理产生背景
实时流处理概述
离线计算与实时计算对比
实时流处理框架对比
实时流处理架构与技术选型
实时流处理在企业中的应用

1. 业务现状分析

需求：统计主站每个（指定）课程访问的客户端、地域信息分布。

地域：IP转换
客户端：useragent获取

实现步骤：

拿到课程编号，IP信息，UserAgent
进行相应的统计分析操作：MapReduce/Spark

项目架构：基于Hadoop的实现方案

日志收集：Flume
离线分析：MapReduce/Spark
统计结果图形化展示

问题：

小时级别统计没问题
10分钟，也可能处理过来
如果是5分钟呢？1分钟呢？

如何解决呢？使用实时流处理。

2. 实时流处理产生背景

时效性高：业务对时效性要求比较高
数据量大：业务数据量比较大，但是数据有效密度比较低

3. 实时流处理概述

实时计算：响应时间比较短。
流式计算：数据不断的进入，不停顿。
实时流式计算：在不断产生的数据流上，进行实时计算。

4. 离线计算与实时计算对比

数据来源
- 离线：HDFS历史数据，数据量比较大。
- 实时：消息队列（Kafka），实时新增/修改记录实时过来的某一笔数据。
处理过程
- 离线：Map + Reduce
- 实时：Spark(DStream/SS)
处理速度
- 离线：速度慢
- 实时：快速拿到结果
进程角度
- 离线：启动 + 销毁进程
- 实时： 7 * 24小时进行统计，线程不停止

5. 实时流处理框架对比

Apache Storm：Apache顶级项目，完全的实时流处理框架。
Apache Spark Streaming：基于Spark API进行扩展，并不是完全实时的，是按照时间间隔拆成小的批处理。严格并不是实时流处理框架，而是小的批处理框架。
IBM Stream：用的比较少。
Yahoo! S4
LinkedIn Kafka：不止消息队列，也包括了实时流处理。
Flink：既可以做流式也可以做批处理。

6. 实时流处理架构与技术选型

spark-streaming1.png

Flume实时收集WebServer产生日志
添加Kafka消息队列，进行流量消峰，防止Spark/Storm崩掉
处理完数据，持久化到RDBMS/NoSQL
最后进行可视化展示

7. 实时流处理在企业中的应用

电信行业：推荐流量包一类
电商行业：大屏啊，推荐算法

相关文章

Spark Streaming实时流处理-1.初识实时流处理
目录业务现状分析实时流处理产生背景实时流处理概述离线计算与实时计算对比实时流处理框架对比实时流处理架构...
Spark学习之Spark Streaming（一）
Spark Streaming 实时数据流处理一、Spark Streaming基础 1、Spark Strea...
Spark Streaming运行架构分析
简介 Spark Streaming是Spark Core的扩展，是构建于Spark Core之上的实时流处理系统...
Spark Streaming（一）入门介绍
Spark Streaming是一个实时流处理框架，实时流处理产生的背景是时效性高，数据量大，个人认为从严格意义上...
python玩storm趟坑记
准备开始学习storm。storm是最有名的实时流处理，spark虽然也有spark streaming，出来得比...
大数据实时流处理
要想来做实时流处理，需要准备四项工作 Spark Streaming的核心api学习安装环境时，注意点实现实时...
Spark Streaming实时流处理项目
项目简介今天到现在为止实战课程的访问量今天到现在为止从搜索引擎引流过来的实战课程的访问量项目流程需求分析 ...
[译]Spark Streaming编程指南（一）
概述 Spark Streaming是核心Spark API的扩展，对实时数据流地处理具有可扩展，高吞吐量和容错特...
Spark Streaming 整合Kafka
Spark Streaming简介 Spark Streaming是Spark提供的对实时数据进行流计算的组件, ...
武汉数道云，Spark Streaming实时流式数据处理，典型
1. Spark Streaming Spark Streaming核对实时流式数据的处理具有可扩展性、高吞吐量、...

网友评论

独立开发者小记

本文标题：Spark Streaming实时流处理-1.初识实时流处理

本文链接：https://www.haomeiwen.com/subject/dmudgftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

独立开发者小记

热点阅读

独立开发者小记

关于我们|服务条款|联系我们|Spark Streaming实时流处理-1.初识实时流处理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！