Elastic job 执行过程分析源码分析

作者: pcgreat | 来源:发表于2018-08-15 12:02 被阅读112次

Elastic job 执行过程分析源码分析
Elastic-Job源码分析-作业执行
elastic-job源码分析（一）--自定义xsd文件
分布式调度引擎 elastic-job 源码分析 (一) 概述
Elastic job 线程模型源码分析
Elastic job leader选举源码分析
Elastic job 移除leader 源码分析
elastic job源码分析 - 注册中心
elastic-job源码浅析(任务执行过程)
elastic-job 源码解读之job的执行过程

Elastic job AbstractElasticJobExecutor 执行过程的核心类，execute 方法则是执行方法，补偿机制这里会写

   /**
     * 执行作业.
     */
    public final void execute() {
        try {
            //zk服务器时间与本地时间如果超过 maxTimeDiffSeconds 会报异常 ， 默认 －1 不开启 ， 不开启 会有什么问题呢 
            jobFacade.checkJobExecutionEnvironment();
        } catch (final JobExecutionEnvironmentException cause) {
            jobExceptionHandler.handleException(jobName, cause);
        }
         //返回分片上下文 在[分片中有介绍](https://www.jianshu.com/p/44893e3c216d)
        ShardingContexts shardingContexts = jobFacade.getShardingContexts();
        if (shardingContexts.isAllowSendJobEvent()) {
            //shardingContexts.isAllowSendJobEvent() : 默认返回true  ， 直接 发送trace event  ，job start

            jobFacade.postJobStatusTraceEvent(shardingContexts.getTaskId(), State.TASK_STAGING, String.format("Job '%s' execute begin.", jobName));
        }
        // 判断当前有运行的分片 ，有 ，会在 sharding/分片id/misfire 创建节点 value 为 “”  当前调度 发送trace event 后 结束 
        if (jobFacade.misfireIfRunning(shardingContexts.getShardingItemParameters().keySet())) {
            if (shardingContexts.isAllowSendJobEvent()) {
                jobFacade.postJobStatusTraceEvent(shardingContexts.getTaskId(), State.TASK_FINISHED, String.format(
                        "Previous job '%s' - shardingItems '%s' is still running, misfired job will start after previous job completed.", jobName, 
                        shardingContexts.getShardingItemParameters().keySet()));
            }
            return;
        }
        try {
            //类似于 jobFacade.afterJobExecuted 在[doAsfterJobExecutedAtLastCompleted]
            jobFacade.beforeJobExecuted(shardingContexts);
            //CHECKSTYLE:OFF
        } catch (final Throwable cause) {
            //CHECKSTYLE:ON
            jobExceptionHandler.handleException(jobName, cause);
        }
        execute(shardingContexts, JobExecutionEvent.ExecutionSource.NORMAL_TRIGGER);
        //如果有Misfired 分片 ，清除 sharding/分片id/misfire  ，然后为Misfired 分片  调用execute

        while (jobFacade.isExecuteMisfired(shardingContexts.getShardingItemParameters().keySet())) {
            jobFacade.clearMisfire(shardingContexts.getShardingItemParameters().keySet());
            execute(shardingContexts, JobExecutionEvent.ExecutionSource.MISFIRE);
        }
        //处理失败分片,默认不启用 ,暂时不分析
        jobFacade.failoverIfNecessary();
        try {
            jobFacade.afterJobExecuted(shardingContexts);
            //CHECKSTYLE:OFF
        } catch (final Throwable cause) {
            //CHECKSTYLE:ON
            jobExceptionHandler.handleException(jobName, cause);
        }
    }

jobFacade.checkJobExecutionEnvironment() : zk服务器时间与本地时间如果超过 maxTimeDiffSeconds 会报异常，默认－1 不开启，不开启会有什么问题呢
jobFacade.getShardingContexts(): 返回分片上下文在分片中有介绍
shardingContexts.isAllowSendJobEvent() : 默认返回true ，直接发送trace event ，job start
jobFacade.misfireIfRunning : 判断当前有运行的分片，有，会在 sharding/分片id/misfire 创建节点 value 为 “” 当前调度发送trace event 后结束
jobFacade.beforeJobExecuted :类似于 jobFacade.afterJobExecuted 在doAsfterJobExecutedAtLastCompleted 有分析
execute中调用的private execute 方法，执行分片任务，执行完后，如果有Misfired 分片，清除 sharding/分片id/misfire ，然后为Misfired 分片调用execute
jobFacade.failoverIfNecessary():处理失败分片,默认不启用 ,暂时不分析

private execute 方法

 private void execute(final ShardingContexts shardingContexts, final JobExecutionEvent.ExecutionSource executionSource) {
        // 如果分片为 empty
        if (shardingContexts.getShardingItemParameters().isEmpty()) {
            if (shardingContexts.isAllowSendJobEvent()) {
                // no shard ,  task finished  
                jobFacade.postJobStatusTraceEvent(shardingContexts.getTaskId(), State.TASK_FINISHED, String.format("Sharding item for job '%s' is empty.", jobName));
            }
            return;
        }
        jobFacade.registerJobBegin(shardingContexts);
        String taskId = shardingContexts.getTaskId();
        if (shardingContexts.isAllowSendJobEvent()) {
            jobFacade.postJobStatusTraceEvent(taskId, State.TASK_RUNNING, "");
        }
        try {
            process(shardingContexts, executionSource);
        } finally {
            // TODO 考虑增加作业失败的状态，并且考虑如何处理作业失败的整体回路
            jobFacade.registerJobCompleted(shardingContexts);
            if (itemErrorMessages.isEmpty()) {
                if (shardingContexts.isAllowSendJobEvent()) {
                    jobFacade.postJobStatusTraceEvent(taskId, State.TASK_FINISHED, "");
                }
            } else {
                if (shardingContexts.isAllowSendJobEvent()) {
                    jobFacade.postJobStatusTraceEvent(taskId, State.TASK_ERROR, itemErrorMessages.toString());
                }
            }
        }
    }

如果分片为empty 则 no shard , task finished 如果有 jobFacade.registerJobBegin(shardingContexts) 方法在monitorExecution 为true 会为对应分片创建sharding/shardid/running 临时节点。
发送TASK_RUNNING Trace Event

调用 process 方法 ,如果分片只有1 ，当前线程执行另一process 方法，如果分片数 >1 则会交给 [线程池] https://www.jianshu.com/p/0d0e7339c9b0 , 结束当前调用。

 private void process(final ShardingContexts shardingContexts, final JobExecutionEvent.ExecutionSource executionSource) {
        Collection<Integer> items = shardingContexts.getShardingItemParameters().keySet();
        if (1 == items.size()) {
            int item = shardingContexts.getShardingItemParameters().keySet().iterator().next();
            JobExecutionEvent jobExecutionEvent =  new JobExecutionEvent(shardingContexts.getTaskId(), jobName, executionSource, item);
            process(shardingContexts, item, jobExecutionEvent);
            return;
        }
        final CountDownLatch latch = new CountDownLatch(items.size());
        for (final int each : items) {
            final JobExecutionEvent jobExecutionEvent = new JobExecutionEvent(shardingContexts.getTaskId(), jobName, executionSource, each);
            if (executorService.isShutdown()) {
                return;
            }
            executorService.submit(new Runnable() {
                
                @Override
                public void run() {
                    try {
                        process(shardingContexts, each, jobExecutionEvent);
                    } finally {
                        latch.countDown();
                    }
                }
            });
        }
        try {
            latch.await();
        } catch (final InterruptedException ex) {
            Thread.currentThread().interrupt();
        }
    }

最后的process 方法

 private void process(final ShardingContexts shardingContexts, final int item, final JobExecutionEvent startEvent) {
        if (shardingContexts.isAllowSendJobEvent()) {
            jobFacade.postJobExecutionEvent(startEvent);
        }
        log.trace("Job '{}' executing, item is: '{}'.", jobName, item);
        JobExecutionEvent completeEvent;
        try {
            process(new ShardingContext(shardingContexts, item));
            completeEvent = startEvent.executionSuccess();
            log.trace("Job '{}' executed, item is: '{}'.", jobName, item);
            if (shardingContexts.isAllowSendJobEvent()) {
                jobFacade.postJobExecutionEvent(completeEvent);
            }
            // CHECKSTYLE:OFF
        } catch (final Throwable cause) {
            // CHECKSTYLE:ON
            completeEvent = startEvent.executionFailure(cause);
            jobFacade.postJobExecutionEvent(completeEvent);
            itemErrorMessages.put(item, ExceptionUtil.transform(cause));
            jobExceptionHandler.handleException(jobName, cause);
        }
    }

向jobEventBus 发送 startEvent ，调用你实现job 类的proccess 方法，向jobEventBus 发送
success completeEvent 如果出现异常向jobEventBus 发送 error completeEvent ，处理异常等等

回过头来想想补偿机制 job 每1s 调度一次， job 实际执行需要3s ，会是怎么样的输出呢，看源码是根据sharding/分片id/running 判断，第二次以及第三次调度，实际会变成2次调度，也就是说会丢失一次调度的这种情况需要注意

quartz SimpleThreadPool 1 个线程，misfire 策略 MISFIRE_INSTRUCTION_DO_NOTHING 这种情况 quartz misfire 策略就没有意义了，一个线程调度 execute 方法中不会出现 misfire ，但事实上出现了的misfire 是怎么回事呢 JobTriggerListener 会给你答案


/**
 * 作业触发监听器.
 * 
 * @author zhangliang
 */
@RequiredArgsConstructor
public final class JobTriggerListener extends TriggerListenerSupport {
    
    private final ExecutionService executionService;
    
    private final ShardingService shardingService;
    
    @Override
    public String getName() {
        return "JobTriggerListener";
    }
    
    @Override
    public void triggerMisfired(final Trigger trigger) {
        if (null != trigger.getPreviousFireTime()) {
            executionService.setMisfire(shardingService.getLocalShardingItems());
        }
    }
}

JobTriggerListener 这里 PreviousFireTime 不为null 情况下，置本地分片 zk misfire 。

Elastic job 执行过程分析源码分析
Elastic job AbstractElasticJobExecutor 执行过程的核心类，execu...
Elastic-Job源码分析-作业执行
上一篇Elastic-Job源码分析-作业初始化过程.md分析了作业初始化的过程，今天来分析下调度作业的执行过程，...
elastic-job源码分析（一）--自定义xsd文件
elastic-job源码分析（一）--自定义xsd文件
分布式调度引擎 elastic-job 源码分析 (一) 概述
分布式调度引擎 elastic-job3 源码分析 (二) 作业模型和注册[https://www.jianshu...
Elastic job 线程模型源码分析
个人觉得线程模型在任何技术框架领域都是需要提及的一个点，我们来看下 Elastic job 怎样维护job 的线程...
Elastic job leader选举源码分析
问题3 当某一实例挂掉时候，集群的leader 会报异常，当任务完成的时候，只会重新分片，如果 ...
Elastic job 移除leader 源码分析
Elastic job 移除选举方法 leaderService.removeLeader(); 判断是否存在le...
elastic job源码分析 - 注册中心
在elastic job中，只实现了基于zookeeper的注册中心。类图如下：基于Zookeeper的注册中心...
elastic-job源码浅析(任务执行过程)
1.启动过程流程图流程图详细地描述了各个作业细节的执行过程，看上去流程非常复杂，其主要的功能点为：判断作业是否可...
elastic-job 源码解读之job的执行过程
在第一篇job 的类设计结构中，已经说过job最终执行会在quartz中执行LiteJob该作业，LiteJob...