美文网首页Java学习笔记人工智能 物联网 大数据 云计算Java 杂谈
基于Spring Boot为美柚大数据研发的大数据任务调度平台源

基于Spring Boot为美柚大数据研发的大数据任务调度平台源

作者: 让我来处理高并发 | 来源:发表于2020-09-25 19:58 被阅读0次

    此项目为美柚大数据研发的大数据任务调度平台,提供Spark、Flink等离线任务的调度以及实时任务的监控,并具有批次积压报警、任务异常重启、重复应用监测、大内存应用监测等功能。

    Big Whale - 任务调度平台

    Big Whale(巨鲸),为美柚大数据研发的大数据任务调度平台,提供Spark、Flink等离线任务的调度以及实时任务的监控,并具有批次积压报警、任务异常重启、重复应用监测、大内存应用监测等功能。 服务基于Spring Boot 2.0开发,部署方便,功能强大,打包后即可运行。

    部署

    1.准备

    Java 1.8+

    Mysql 5.1.0+

    下载项目或git clone项目

    为解决 github README.md 图片无法正常加载的问题,请在hosts文件中加入相关域名解析规则

    2.安装

    创建数据库:big-whale

    运行数据库脚本:big_whale_tables_mysql.sql

    根据Spring Boot环境,配置相关数据库账号密码,以及SMTP信息

    配置:big-whale.properties配置项说明ssh.user: 拥有脚本执行权限的ssh用户(平台会使用该用户作为统一的脚本执行用户)ssh.password: 拥有脚本执行权限的ssh用户密码dingding.enabled: 是否开启钉钉告警dingding.watcher-token: 钉钉公共群机器人Tokenyarn.app-memory-threshold: Yarn应用内存上限,-1禁用监测yarn.app-white-list: 白名单列表(列表中的应用申请的内存超过上限,不会进行报警)

    修改:$FLINK_HOME/bin/flink(flink提交任务时,只能读取本地jar包,故需要在执行flink提交命令时从hdfs上下载jar包并替换脚本的jar包路径参数,参考:flink)

    服务打包:mvn clean package

    3.启动

    检查端口17070是否被占用,被占用的话,关闭占用的进程或修改项目端口号配置重新打包

    拷贝target下的big-whale.jar,执行命令:java -jar big-whale.jar

    4.初始配置

    输入账号admin,密码admin

    点击:权限管理->用户管理,修改当前账号的邮箱为合法且存在的邮箱地址,否则会导致邮件发送错误、执行状态更新失败等问题

    添加集群集群管理->集群管理->新增

    “yarn管理地址”为ResourceManager的WEB UI地址需要为Spark或Flink任务设置“程序包存储目录”,如:/data/big-whale/storage“支持Flink任务代理用户”“流式任务黑名单”和“批处理任务黑名单”为内部定制的任务分配规则,可不填

    添加设备

    集群管理->设备管理->新增

    选择集群后,会作为该集群下提交Spark或Flink任务的客户机之一(注意!!!当有多台机器属于同个集群的时,会随机选择客户机提交任务)

    添加集群用户集群管理->集群用户->新增

    “用户”为平台用户,“代理用户”为运行Spark的代理用户,该配置的语义为:平台用户在所选集群下可使用的Yarn资源队列和代理用户(proxyuser)

    添加计算框架版本集群管理->版本管理->新增

    同一集群下不同版本的Spark或Flink提交任务的命令可能有所不同,如Spark:1.6.0版本的提交命令为spark-submit,2.1.0版本的提交命令为spark2-submit

    使用

    1.新建脚本

    脚本管理->新增

    “类型”有shell、spark实时、spark离线、flink实时、flink离线,示例为:spark实时

    因为当前用户为超级管理员,可为所有用户创建脚本,故需要选择“用户”

    “程序包”应上传与脚本类型相应的Spark流式任务打成的jar包

    “资源选项”可不填

    代码有两种编辑模式,“可视化视图”和“代码视图”,可互相切换

    2.执行脚本

    脚本管理

    点击执行上一步新建的脚本

    执行成功后在详情中便可查看到Yarn应用详情的链接(提交Yarn任务的日志级别请设置为:INFO)

    3.实时监控

    对于类型为“spark实时”和“flink实时”的脚本,可以通过添加此功能来实时监控任务的运行情况

    4.离线调度

    对于类型为“shell”、“spark离线”和“flink离线”的脚本,可通过添加此功能实现定时执行,通过添加子脚本的形式可实现串行任务调度

    说明:平台提交saprk或flink任务的时候默认都会以“后台”的方式执行,对应spark配置:--conf spark.yarn.submit.waitAppCompletion=false,flink配置:-d,但是基于后台任务监测的实现,通过回调实现串行任务调度的时候会等待真正运行的任务完成后再执行下一脚本

    源码获取方式:点赞文章之后关注,私信回复【源码】即可免费获取到哦~

    相关文章

      网友评论

        本文标题:基于Spring Boot为美柚大数据研发的大数据任务调度平台源

        本文链接:https://www.haomeiwen.com/subject/lxxquktx.html