Azkaban－开源任务调度程序（使用篇）

作者: haort | 来源:发表于2016-01-20 11:00 被阅读33287次

Azkaban－开源任务调度程序（使用篇）
Azkaban－开源任务调度程序（安装篇）
Airflow Operator 开发
分布式任务调度平台XXL-JOB搭建教程
Azkaban的安装及使用
实战_资讯推荐场景中多路召回实践01
Golang实现简单爬虫框架（5）——项目重构与数据存储
Quartz框架
Linux任务调度
spring 任务调度（定时任务）

上篇文章说到了安装，这次说说使用

创建工程：

创建之前我们先了解下之间的关系，一个工程包含一个或多个flows，一个flow包含多个job。job是你想在azkaban中运行的一个进程，可以是简单的linux命令，可是java程序，也可以是复杂的shell脚本，当然，如果你安装相关插件，也可以运行插件。一个job可以依赖于另一个job，这种多个job和它们的依赖组成的图表叫做flow。

job创建

创建job很简单，只要创建一个以.job结尾的文本文件就行了,例如我们创建一个工作，用来将日志数据导入hive中（关于大数据方面的东西，不在重复，可以理解为，将日志所需数据导入的mysql中），我们创建o2o_2_hive.job

type=command
command=echo "data 2 hive"

一个简单的job就创建好了，解释下，type的command，告诉azkaban用unix原生命令去运行，比如原生命令或者shell脚本，当然也有其他类型，后面说。

一个工程不可能只有一个job，我们现在创建多个依赖job，这也是采用azkaban的首要目的。

flows创建

我们说过多个jobs和它们的依赖组成flow。怎么创建依赖，只要指定dependencies参数就行了。比如导入hive前，需要进行数据清洗，数据清洗前需要上传，上传之前需要从ftp获取日志。
定义5个job：

o2o_2_hive.job：将清洗完的数据入hive库
o2o_clean_data.job：调用mr清洗hdfs数据
o2o_up_2_hdfs.job：将文件上传至hdfs
o2o_get_file_ftp1.job：从ftp1获取日志
o2o_get_file_fip2.job：从ftp2获取日志

依赖关系：
3依赖4和5，2依赖3，1依赖2，4和5没有依赖关系。

o2o_2_hive.job

type=command
# 执行sh脚本，建议这样做，后期只需维护脚本就行了，azkaban定义工作流程
command=sh /job/o2o_2_hive.sh
dependencies=o2o_clean_data

o2o_clean_data.job

type=command
# 执行sh脚本，建议这样做，后期只需维护脚本就行了，azkaban定义工作流程
command=sh /job/o2o_clean_data.sh
dependencies=o2o_up_2_hdfs

o2o_up_2_hdfs.job

type=command
#需要配置好hadoop命令，建议编写到shell中，可以后期维护
command=hadoop fs -put /data/*
#多个依赖用逗号隔开
dependencies=o2o_get_file_ftp1,o2o_get_file_ftp2

o2o_get_file_ftp1.job

type=command
command=wget "ftp://file1" -O /data/file1

o2o_get_file_ftp2.job

type=command
command=wget "ftp:file2" -O /data/file2

可以运行unix命令，也可以运行python脚本（强烈推荐）。将上述job打成zip包。
ps：为了测试流程，我将上述command都改为echo ＋相应命令

上传：

上传

上传完成

点击o2o_2_hive进入流程，azkaban流程名称以最后一个没有依赖的job定义的。

流程

右上方是配置执行当前流程或者执行定时流程。

流程执行

Flow view：流程视图。可以禁用，启用某些job
Notification:定义任务成功或者失败是否发送邮件
Failure Options:定义一个job失败，剩下的job怎么执行
Concurrent：并行任务执行设置
Flow Parametters：参数设置。

1.执行一次
设置好上述参数，点击execute。

执行成功

绿色代表成功，蓝色是运行，红色是失败。可以查看job运行时间，依赖和日志，点击details可以查看各个job运行情况。

jobList

2.定时执行

定时执行

这时候注意到cst了吧，之前需要将配置中时区改为Asia/shanghai。
可以选择"天/时/分/月/周"等执行频率。

定时任务

可以查看下次执行时间。

其他job配置选项

可以定义job依赖另一个flow，配置

type=flow
flow.name=fisrt_flow

可以设置每个job中子命令

type=command
command=echo "hello"
command.1=echo "world"

可以配置job失败重启次数，及间隔时间,比如，上述ftp获取日志，我可以配置重试12次，每隔5分钟一次。

type=command
command=wget "ftp://file1" -O /data/file1
retries=12
#单位毫秒
retry.backoff=300000

azkaban还有很多强大的功能，如它开放了相关api，我们将它可以嵌入到自己的app等等，有兴趣的朋友可以研究。

至此，azkaban学习到此结束，本人也是初学者，如果问题，欢迎指正。

Azkaban－开源任务调度程序（使用篇）
上篇文章说到了安装，这次说说使用登录 https://localhost:8443注意是https，采用的是je...
Azkaban－开源任务调度程序（安装篇）
最近项目迁移到新集群，试试同事推荐的开源任务调度程序－azkaban（阿兹卡班），没看错，就是哈利波特里的阿兹卡班...
Airflow Operator 开发
Airflow 是 Airbnb 公司开源的任务调度系统, 通过使用 Python 开发 DAG, 非常方便的调度...
分布式任务调度平台XXL-JOB搭建教程
一、使用XXL-JOB的原因 1、 Quartz的不足 Quartz作为开源任务调度中的佼佼者，是任务调度的首选。...
Azkaban的安装及使用
LinkedIn开源的任务调度框架，Azkaban的安装及使用 Azkaban的安装https://blog.cs...
实战_资讯推荐场景中多路召回实践01
召回服务框架任务调度平台主流的任务调度框架airflow airflow是一款开源的，分布式任务调度框架，它将...
Golang实现简单爬虫框架（5）——项目重构与数据存储
前言在上一篇文章《Golang实现简单爬虫框架（4）——队列实现并发任务调度》中，我们使用用队列实现了任务调度，...
Quartz框架
Quartz Quartz是一个全功能，开源的任务调度服务。Quartz的核心概念：schedule任务调度，jo...
Linux任务调度
crond任务调度 crontab用于定时任务的设置。任务调度：是指系统在某个时间执行的特定的命令或程序。任务调度...
spring 任务调度（定时任务）
spring 任务调度（定时任务）本文将告诉你如何使用spring的任务调度。主要使用@Scheduled注解 ...

网友评论

8caecc987d67:《Azkaban-开源任务调度程序(使用篇) - 简书》写的不错不错，收藏了。

推荐下，分布式作业中间件 Elastic-Job 源码解析 16 篇：http://tinyurl.com/y93r9wfg

颓

0378c9b91af0:恩恩

还不错那

人云者:清晰易懂，感谢

豆子220: 您好，请问job任务可以是python脚本吗？能给出一个helloworld级别的例子吗？谢谢

haort:@豆子220 都可以，bash命令

ffa7f0a016a7:你好，请问你碰到过中文乱码的问题吗？
在job 中写的command命令中带有中文字符，执行之后从日志里看中文乱码了，
mysql数据库里也是乱码，
请问这个是要修改哪里的编码格式？

豆子220:您好，请问job任务可以是python脚本吗？能给出一个helloworld级别的例子吗？谢谢

haort:@麥兜_1e5f 中文乱码问题排查很简单，建议从文本，到编码，到数据库都采用utf8

willgone:楼主你好，目前我们想做一个工具大概是这样，把应用构建打包并将job文件和依赖文件一起和打好的包进行压缩并通过程序上传到azkaban的执行路径下。azkaban更多的是被用来监控任务执行情况了。请问这种场景有没有什么好的建议或者资料可以分享。谢谢

沈颖:现在做的怎么样了

凌飞羽:你好，请问怎样动态传参呢

大广播:我这有一个问题，假设我 1 依赖 2 ，2依赖3，那1的dependency还需要配置3吗，我这边执行会报说找不到依赖怎么怎么样子的。。

沈颖:你要理解什么是工作流

a8ddd847ea72:@大广播我这边不用， v2.5.0版本

45a6c9bcc10a:你好，刚开始用AZ，有个问题，我安装的版本是2.5.0的，hadoop版本是2.7.1 hive1.2.1 hbase 1.1.2，executor和web都已经安装好了，然后type是commond是可以成功运行的，但是AZ附带的插件jobType运行hadoop和hive都不行呢，报的是没找到类，但我已经制定hadoop lib和conf地址了，我看你都是用脚本来执行的，有尝试过他自带的插件吗？

e767b8c9adde:大神，我按照你的配置弄的，启动的时候报错。
Exception in thread "AzkabanWebServer-Cleaner-Thread" java.lang.NoSuchMethodError: org.joda.time.DateTime.now()Lorg/joda/time/DateTime;
at azkaban.executor.ExecutorManager$CleanerThread.cleanExecutionLogs(ExecutorManager.java:1224)
at azkaban.executor.ExecutorManager$CleanerThread.run(ExecutorManager.java:1209)
Exception in thread "main" java.lang.NoSuchMethodError: org.codehaus.jackson.JsonNode.asInt()I
at azkaban.utils.JSONUtils.toObjectFromJSONNode(JSONUtils.java:152)
at azkaban.utils.JSONUtils.toObjectFromJSONNode(JSONUtils.java:134)
at azkaban.utils.JSONUtils.parseJSONFromString(JSONUtils.java:106)
at azkaban.project.JdbcProjectLoader$ProjectResultHandler.handle(JdbcProjectLoader.java:1050)
at azkaban.project.JdbcProjectLoader$ProjectResultHandler.handle(JdbcProjectLoader.java:1012)
at org.apache.commons.dbutils.QueryRunner.query(QueryRunner.java:347)
at org.apache.commons.dbutils.QueryRunner.query(QueryRunner.java:225)
at azkaban.project.JdbcProjectLoader.fetchAllActiveProjects(JdbcProjectLoader.java:92)
at azkaban.project.JdbcProjectLoader.fetchAllActiveProjects(JdbcProjectLoader.java:77)
at azkaban.project.ProjectManager.loadAllProjects(ProjectManager.java:72)
at azkaban.project.ProjectManager.<init>(ProjectManager.java:66)
at azkaban.webapp.AzkabanWebServer.loadProjectManager(AzkabanWebServer.java:242)
at azkaban.webapp.AzkabanWebServer.<init>(AzkabanWebServer.java:186)
at azkaban.webapp.AzkabanWebServer.main(AzkabanWebServer.java:726)

e767b8c9adde:@鸠摩智2016 有没有遇到过啊？

4f058464d308:非常感谢，写的很详细，很好

有一只乌龟:帅哥，这个executor可以部署到远程主机吗？

有一只乌龟:thank you!

haort:@有一只乌龟我没试过，但是官网上说的可以，我看配置上也可以，支持分布式的

catchbug:这玩意似乎比spingbatch好理解

haort:@catchbug 我去看下你那个，最近在看hue，配置好了，但是还遇到些小问题

8caecc987d67:《Azkaban-开源任务调度程序(使用篇) - 简书》写的不错不错，收藏了。

推荐下，分布式作业中间件 Elastic-Job 源码解析 16 篇：http://tinyurl.com/y93r9wfg

颓
0378c9b91af0:恩恩

还不错那
人云者:清晰易懂，感谢
豆子220: 您好，请问job任务可以是python脚本吗？能给出一个helloworld级别的例子吗？谢谢
haort:@豆子220 都可以，bash命令
ffa7f0a016a7:你好，请问你碰到过中文乱码的问题吗？
在job 中写的command命令中带有中文字符，执行之后从日志里看中文乱码了，
mysql数据库里也是乱码，
请问这个是要修改哪里的编码格式？
豆子220:您好，请问job任务可以是python脚本吗？能给出一个helloworld级别的例子吗？谢谢
haort:@麥兜_1e5f 中文乱码问题排查很简单，建议从文本，到编码，到数据库都采用utf8
willgone:楼主你好，目前我们想做一个工具大概是这样，把应用构建打包并将job文件和依赖文件一起和打好的包进行压缩并通过程序上传到azkaban的执行路径下。azkaban更多的是被用来监控任务执行情况了。请问这种场景有没有什么好的建议或者资料可以分享。谢谢
沈颖:现在做的怎么样了
凌飞羽:你好，请问怎样动态传参呢
凌飞羽:你好，请问怎样动态传参呢
大广播:我这有一个问题，假设我 1 依赖 2 ，2依赖3，那1的dependency还需要配置3吗，我这边执行会报说找不到依赖怎么怎么样子的。。
沈颖:你要理解什么是工作流
a8ddd847ea72:@大广播我这边不用， v2.5.0版本
45a6c9bcc10a:你好，刚开始用AZ，有个问题，我安装的版本是2.5.0的，hadoop版本是2.7.1 hive1.2.1 hbase 1.1.2，executor和web都已经安装好了，然后type是commond是可以成功运行的，但是AZ附带的插件jobType运行hadoop和hive都不行呢，报的是没找到类，但我已经制定hadoop lib和conf地址了，我看你都是用脚本来执行的，有尝试过他自带的插件吗？
e767b8c9adde:大神，我按照你的配置弄的，启动的时候报错。
Exception in thread "AzkabanWebServer-Cleaner-Thread" java.lang.NoSuchMethodError: org.joda.time.DateTime.now()Lorg/joda/time/DateTime;
at azkaban.executor.ExecutorManager$CleanerThread.cleanExecutionLogs(ExecutorManager.java:1224)
at azkaban.executor.ExecutorManager$CleanerThread.run(ExecutorManager.java:1209)
Exception in thread "main" java.lang.NoSuchMethodError: org.codehaus.jackson.JsonNode.asInt()I
at azkaban.utils.JSONUtils.toObjectFromJSONNode(JSONUtils.java:152)
at azkaban.utils.JSONUtils.toObjectFromJSONNode(JSONUtils.java:134)
at azkaban.utils.JSONUtils.parseJSONFromString(JSONUtils.java:106)
at azkaban.project.JdbcProjectLoader$ProjectResultHandler.handle(JdbcProjectLoader.java:1050)
at azkaban.project.JdbcProjectLoader$ProjectResultHandler.handle(JdbcProjectLoader.java:1012)
at org.apache.commons.dbutils.QueryRunner.query(QueryRunner.java:347)
at org.apache.commons.dbutils.QueryRunner.query(QueryRunner.java:225)
at azkaban.project.JdbcProjectLoader.fetchAllActiveProjects(JdbcProjectLoader.java:92)
at azkaban.project.JdbcProjectLoader.fetchAllActiveProjects(JdbcProjectLoader.java:77)
at azkaban.project.ProjectManager.loadAllProjects(ProjectManager.java:72)
at azkaban.project.ProjectManager.<init>(ProjectManager.java:66)
at azkaban.webapp.AzkabanWebServer.loadProjectManager(AzkabanWebServer.java:242)
at azkaban.webapp.AzkabanWebServer.<init>(AzkabanWebServer.java:186)
at azkaban.webapp.AzkabanWebServer.main(AzkabanWebServer.java:726)
e767b8c9adde:@鸠摩智2016 有没有遇到过啊？
4f058464d308:非常感谢，写的很详细，很好
有一只乌龟:帅哥，这个executor可以部署到远程主机吗？
有一只乌龟:thank you!
haort:@有一只乌龟我没试过，但是官网上说的可以，我看配置上也可以，支持分布式的
catchbug:这玩意似乎比spingbatch好理解
haort:@catchbug 我去看下你那个，最近在看hue，配置好了，但是还遇到些小问题

Azkaban－开源任务调度程序（使用篇）

登录

创建工程：

job创建

flows创建

其他job配置选项

azkaban还有很多强大的功能，如它开放了相关api，我们将它可以嵌入到自己的app等等，有兴趣的朋友可以研究。

相关文章

Azkaban－开源任务调度程序（使用篇）

Azkaban－开源任务调度程序（安装篇）

Airflow Operator 开发

分布式任务调度平台XXL-JOB搭建教程

Azkaban的安装及使用

实战_资讯推荐场景中多路召回实践01

Golang实现简单爬虫框架（5）——项目重构与数据存储

Quartz框架

Linux任务调度

spring 任务调度（定时任务）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

人生苦短，我用python

程序员

首页投稿（暂停使用，暂停投稿）

Python 运维

大数据平台

azkaban

零基础学Phyton