Flink是一个分布式处理引擎,对无界数据流和有界数据流进行计算。
流数据(双十一)
传统数据架构是基于有限数据集的
目标:
- 低延迟
- 高吞吐
- 结果的准确性和良好的容错性
二、行业
-
电商和市场营销
数据报表,广告投放,业务流程 -
物联网(IOT)
传感器实时数据采集和显示,实时报警,交通运输业 -
电信业
基站流量调配 -
银行和金融业
实时结算和通知推送,实时检测异常行为
书:Stream Processing with Apache Flink
![](https://img.haomeiwen.com/i11509359/120143611153dc5e.jpg)
传统数据处理架构
![](https://img.haomeiwen.com/i11509359/abf3180437c4be79.png)
CRM: 客户关系管理系统
order System : 订单系统
问题:
![](https://img.haomeiwen.com/i11509359/cf7150dd8d468869.png)
从传统数据库将数据进行ETL,放到数仓里面。
问题:延迟高
![](https://img.haomeiwen.com/i11509359/baecbf405196bd44.png)
数据流 -》 处理逻辑 -》 本地状态 -》 周期性检查点 -》 落盘
![](https://img.haomeiwen.com/i11509359/8ba96832016012e7.png)
Batch Layer 批处理(延迟)
Stream Processor 实时处理(准确性有问题)
![](https://img.haomeiwen.com/i11509359/deac8e9d154f6b88.png)
![](https://img.haomeiwen.com/i11509359/5de8375a96db341a.png)
![](https://img.haomeiwen.com/i11509359/94f0ddf3af96389d.png)
![](https://img.haomeiwen.com/i11509359/680dcaa74c2f1a6a.png)
ProcessFunction 过程函数,最底层API,啥都能干。
DataStream API
SQL/Table API 最抽象,未开发完
![](https://img.haomeiwen.com/i11509359/839293f3b4ed5611.png)
![](https://img.haomeiwen.com/i11509359/4f7140e9a6ec8e3d.png)
![](https://img.haomeiwen.com/i11509359/9cb495004373588c.png)
网友评论