美文网首页
基于akka-actor的流计算引擎

基于akka-actor的流计算引擎

作者: Ever_00 | 来源:发表于2020-01-06 20:35 被阅读0次

0 背景

术语表

术语 备注
akka 一套运行于JVM上实现了Actor模型的Scala类库,用于构建高并发、基于消息驱动的分布式高性能应用
YStream 基于akka-cluster的流计算引擎
Gossip 基于TCP/IP的用于akka-cluster成员节点间相互通信的网络协议
cluster-seed-nodes Gossip的种子节点,用于管理集群节点的状态。akka-cluster的任意节点启动后,都会试图找到一个种子节点并通过其加入到集群中
Job-manager 简称Jm, 作为种子节点负责管理集群内所有节点的状态,同时对外提供基于jmx以及http的关于引擎核心指标数据监控接口。一般配置2个以满足高可用的需要
Task-manager 简称Tm,流计算引擎的核心,实现了Clock、Source、Filter、Map、Window、Sharding、Routing等常用Transformation。根据应用的数据规模可部署多个节点。同时,负责把常用监控指标数据更新到Redis

1 架构图

YStream-architect.png

按照功能角色的不同,YStream主要分两个角色: Job-manager以及Task-manager。 这两个角色都是在同一个akka-cluster中的,而每个角色又有多个节点组成。

1.1 Job-manager

Job-manager简称Jm,

1.2 Task-manager

2 核心概念

2.1 时间

2.1.1 事件时间(EventTime)

2.1.2 处理时间(ProcessingTime)

2.1.3 混合时间(EventTimeWithMaxDelay)

基于事件时间的时间生成器, 支持窗口关闭加速(当长时间没事件的时候,允许强制生成时间, 支持“最少xx秒内产生一个时间戳”的语义)

2.2 窗口

2.2.1 滚动窗口

2.2.2 滑动窗口

3. 核心转换Actor(Core Transformation Actors)

3.1 SourceActor

3.2 ClockActor

3.3 FilterActor

3.4 GroupByActor

3.5 MapActor

3.6 WindowActor

3.7 SinkActor

3.8 Demo

4. 集群模式支持

4.1 架构设计

4.2 ShardingActor

4.3 ClusterDemo

5. 监控指标(Monitor Metrics)

5.1 Jobmanager & Taskmanager

5.2 单actor指标监控

5.3 端到端延迟监控

6. 问题以及改进方向

相关文章

  • 基于akka-actor的流计算引擎

    0 背景 术语表 术语备注akka一套运行于JVM上实现了Actor模型的Scala类库,用于构建高并发、基于消息...

  • Flink基本原理

    1.支持流处理的引擎:Spark和Flink Spark:基于批处理来模拟流的计算;Flink:基于流计算来模拟批...

  • StructuredStreaming编程指南

    1、概述 结构化流是一个基于Spark SQL引擎的可扩展、容错的流处理引擎。您可以用在静态数据上表示批处理计算的...

  • sofa流计算引擎

    五: SOFA微服务生态中,微服务治理中心治理着数以千计的微服务集群,其对集群的治理策略需要根据集群服务器的实时主...

  • Flink简介

    Flink是一个分布式处理引擎,对无界数据流和有界数据流进行计算。 流数据(双十一)传统数据架构是基于有限数据集的...

  • 大数据开发:Spark Streaming与Kafka Stre

    面对越来越多的流处理场景,流计算引擎也成为大数据学习当中的重头戏,在大厂面试当中,流计算引擎也是必问的面试题。今天...

  • 阿里重磅开源 Blink:为什么我们等了这么久?

    今年,实时流计算技术开始步入主流,各大厂都在不遗余力地试用新的流计算框架,实时流计算引擎和 API 诸如 Spar...

  • 200、Spark 2.0之Structured Streami

    流式计算 大多数的流式计算引擎(比如storm、spark streaming等)都仅仅关注流数据的计算方面:比如...

  • Spark对比Hadoop MapReduce 的优势

    与Hadoop MapReduce相比,Spark的优势如下: ❑ 中间结果:基于MapReduce的计算引擎通常...

  • 大数据开发:Flink心跳机制简介

    对于实时流计算引擎来说,心跳机制是确保客户端及服务端正常运行的重要措施,在Flink当中也同样如此,基于心跳机制,...

网友评论

      本文标题:基于akka-actor的流计算引擎

      本文链接:https://www.haomeiwen.com/subject/kaspoctx.html