azkaban 一般问题

作者: 无来无去_A | 来源:发表于2020-07-07 09:41 被阅读0次

azkaban 一般问题
利用Azkaban来完成大数据的任务调度
azkaban ExecutorManager源码剖析
azkaban的问题
AZKABAN（二）使用
azkaban 配置jobtype plugins出现问题和解决
azkaban3.x学习分享
azkaban3.38.0 mac安装
001.Azkaban-3.x 源码编译
(十一)大数据学习之Azkaban

azkaban 任务调度spark client 连接出现问题

hive-site.xml

<!--Hive和spark连接超时时间-->
<property>
    <name>hive.spark.client.connect.timeout</name>
    <value>10000ms</value>
</property>

注意：hive.spark.client.connect.timeout的默认值是1000ms，如果执行hive的insert语句时，抛如下异常，可以调大该参数到10000ms

FAILED: SemanticException Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session d9e0224c-3d14-4bf4-95bc-ee3ec56df48e

Azkaban 一直在请求资源



exec-server/plugins/jobtypes/commonprivate.properties 文件中
增加 memCheck.enabled=false这一行 关闭内存检测

Azkaban多Executor模式下注意事项

Azkaban多Executor模式下注意事项

Azkaban多Executor模式是指，在集群中多个节点部署Executor。在这种模式下， Azkaban web Server会根据策略，选取其中一个Executor去执行任务。
由于我们需要交给Azkaban调度的脚本，以及脚本需要的hive，sqoop等应用只在hadoop102部署了，为保证任务顺利执行，我们须在以下两种方案任选其一，推荐使用方案二。
方案一：指定特定的Executor（hadoop102）去执行任务。
1）在MySQL中azkaban数据库executors表中，查询hadoop102上的Executor的id。

mysql> use azkaban;
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A

Database changed
mysql> select * from executors;
+----+-----------+-------+--------+
| id | host          | port  | active |
+----+-----------+-------+--------+
|  1   | hadoop103 | 35985 |      1 |
|  2   | hadoop104 | 36363 |      1 |
|  3   | hadoop102 | 12321 |      1 |
+----+-----------+-------+--------+
3 rows in set (0.00 sec)


2）在执行工作流程时加入useExecutor属性，如下

image.png


方案二：在Executor所在所有节点部署任务所需脚本和应用

1）分发脚本、hive以及sqoop
[atguigu@hadoop102 ~]$ xsync /home/atguigu/bin/
[atguigu@hadoop102 ~]$ xsync /opt/module/hive
[atguigu@hadoop102 ~]$ xsync /opt/module/sqoop