背景

调度引擎是关键的基础设施，不但是定时执行任务，更是大规模分布式任务引擎，分布式并行处理平台，管理计算节点集群，提供高吞吐的可伸缩的数据处理能力。

公司日益增长的业务，对调度引擎高吞吐，高并发的要求也快速增长，需构建一个无中心，管理大集群，健壮分片容错的任务调度任务平台，支撑业务发展。

同时，分布式调度引擎也是datax，可观测-性能指标组件(sentinel dashboard)分布式改造的核心技术

参考

芋道源码https://blog.csdn.net/X5fnncxzq4/article/details/86770194

https://www.jianshu.com/nb/18843035

术语

无中心/有中心分布式有中心分布式设置中心节点负责集群协调和元数据保存等工作，例如xxl-job的admin/executor， dolphin-scheduler master-worker都是有中心分布式设计；真正无中心设计很少，大部分是节点平等，都可以通过选举成为主节点，也就是，任何一个节点都可以成为中心

脑裂无中心分布式设计，当网络出现问题，节点分割成多个集群，集群间因不能通讯而不能达到状态一致，通常解决方案是集群节点数奇数，节点数少于总数的集群中一半停止工作

分片/容错分片是调度平台很重要的特性，调度处理大规模数据，需要分片执行，分片执行带来新的问题，分片失败，平台回收分片，转移到其他节点执行

详细分析

服务可分为功能服务和核心服务，其中核心服务支撑功能服务的服务，功能任务有任务注册，任务执行，失效转移等，是调度平台的”业务”功能

失效转移

失效转移是运行节点下线后，其他在线运行节点抓取该节点分配的分片执行，保证整个作业的完整性，是分布式调度引擎必备的特性

失效触发

JobCrashedJobListener 监听运行实例znode /instances/{instanceId} 删除事件，即运行实例下线事件，

本节点下线不处理

失效转移

失效转移类图

犹如员工请假，需要其他员工接替工作，运行实例下线需要接替两类工作，将(未)触发的作业，通过重新分片处理；失效转移针对正在进行的作业分片

运行实例正在进行的工作(分片)有哪些

设为missfired的分片，包括quartz missfired和重叠执行转missfired

抢到的失效转移分片，抢到后运行实例下线了

正常分片分配到的作业分片

missfired没有处理，之前分片服务分析了，重分片会剪掉多出的/sharding/item，！！！丢失待处理missfired分片，处理及时性也是问题

继续分析监听器

首先getFailoveringItem获取下线实例抢到的失效转移分片，这是在弦上的箭，该znode是failoverIfNecessary写入的，下面会分析到

setCrashedFailoverFlagDirectly/setCrashedFailoverFlag方法，写入/leader/failover/items/{itemNum}，需要失效转移的分片, 待failoverIfNecessary抓取

两方法区别，setCrashedFailoverFlag先看看是否已分配，setCrashedFailoverFlagDirectly一定要分配，即此分片一定未分配，getFailoveringItem是先处理，getCrashedShardingItems后处理，后处理可能与先处理的相同，因此先检查是否已分配

shardingService.getCrashedShardingItems 抓取正常作业分片

获取失效转移分片后，FailoverService.failoverIfNecessary主节点回调处理，该方法有两处调用，JobCrashedJobListener和作业执行的最后