spark-submit --files 动态加载外部资源文件

作者: 达微 | 来源:发表于2019-01-04 16:20 被阅读34次

spark-submit --files 动态加载外部资源文件
热更新实现方式
Meteor中文件加载规则
UIWebView常用命令
Unity 学习（基础）
Android插件化架构设计之加载资源文件
swift .bundle 的详细使用
Cocos游戏笔记（二）：js动态加载资源
#转#Spark核心编程进阶-SparkConf、spark-s
135、Spark核心编程进阶之SparkConf、spark-

在做spark时，有些时候需要加载资源文件，需要在driver或者worker端访问。在client模式下可以使用IO流直接读取,但是在cluster模式下却不能直接读取，需要如下代码：

val is: InputStream = this.getClass.getResourceAsStream(“./xxx.sql”)
val bufferSource = Source.fromInputStream(is)
这是直接读取classPath路径下的文件,但是cluster模式下，driver有可能不再程序提交的客户端上，以上代码会发生空指针异常。这是，就需要通过--files把外部资源文件加载到classpath路径下。正常情况加载---files filename1,filenam2....,当摘到外部之源文件都是有哪些时，直接列举出来就可以。但是在某些情况下，开发者开发的是一个通用工具，不知到所要加载的是一个什么文件。这是就需要动态加载，我曾尝试过使用--files ../xxx/*.sql，这个可以动态加载指定目录下数据。但是后来发现，这样加载只能加载一个文件，文件夹中超过多余一个文件就会报错。试了很多中方式也没有测试成功。最后通过shell脚本列举文件夹中的文件拼装成字符串，才算完成。

程序打包目录如下：

代码实现如下：

##########################################################################################

由于spark2_submit --files /../*.sql 不能加载多个文件所以只能拼装script路径下的文件####

##########################################################################################

获取当前项目绝对路径###

project_home= $(dirname$ (readlink -f "$0"))"/.."

project_home=" $(readlink -f$ (cd "dirname "$0""/..; pwd))"

获取script绝对路径###

script_path=${project_home}"/script/"

获取项目中script目录下所有的脚本文件

files= $(ls$ script_path);
files= ${files// / }; file_arr=($ files);
files_str=""
for ele in ${file_arr[*]} do file_str=$ {file_str} ${script_path}$ {ele},
done
len=expr ${#file_str} - 1
file_str=expr substr "$file_str" 1 $len
echo $file_str

/usr/bin/spark2-submit --executor-memory 15G
--master yarn \
--queue dataengine
--files $project_home/script/* \ --executor-cores 5 \ --driver-cores 3 \ --name AutoScript \ --deploy-mode cluster \ --class xx.xx.xxx \ --driver-memory 10G \ --conf "spark.dynamicAllocation.executorIdleTimeout=300" \ --conf "spark.shuffle.file.buffer=16k" \ --conf "spark.yarn.appMasterEnv.JAVA_HOME=/opt/jdk1.8.0_45" \ --conf "spark.dynamicAllocation.minExecutors=11" \ --conf "spark.dynamicAllocation.maxExecutors=11" \ --conf "spark.speculation.quantile=0.85" \ --conf "spark.executorEnv.JAVA_HOME=/opt/jdk1.8.0_45" \ --conf "spark.executor.extraJavaOptions=-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintTenuringDistribution -XX:+UseG1GC " \ --conf "spark.executor.extraJavaOptions=-XX:+UseG1GC " \ --conf "spark.driver.extraClassPath=/home/sunkl/hive-exec-1.1.0-cdh5.7.6.jar" \ --conf "spark.speculation=true" \ --conf "spark.rpc.askTimeout=400" \ --conf "spark.shuffle.service.enabled=true" \$ project_home/lib/******.jar

spark-submit --files 动态加载外部资源文件
在做spark时，有些时候需要加载资源文件，需要在driver或者worker端访问。在client模式下可以使用...
热更新实现方式
SDK 动态加载替换资源和类文件可以有几种实现方式，一种是可以资源文件和代码分开进行加载与替换，例如加载图片资源文...
Meteor中文件加载规则
目录示例文件加载顺序文件加载规则： HTML template files are always loaded...
UIWebView常用命令
加载外部链接：加载本地资源：
Unity 学习（基础）
unity基础学习！项目基本文件认识，以及技能 Scenes 场景； Resources 动态加载资源文件， ...
Android插件化架构设计之加载资源文件
开篇介绍现在项目比较大资源比较多，但是若希望动态来加载资源文件，可以有以下几种方式: 通过下载资源文件zip包...
swift .bundle 的详细使用
将资源文件打包成.bundle，减轻打包的大小。有大量的外部文件最好放在Bundle中。创建方式：加载使用：...
Cocos游戏笔记（二）：js动态加载资源
一 . 动态资源存放位置动态加载资源要注意两点，一是所有需要通过脚本动态加载的资源，都必须放置在 resourc...
#转#Spark核心编程进阶-SparkConf、spark-s
默认的配置属性 spark-submit脚本会自动加载conf/spark-defaults.conf文件中的配置...
135、Spark核心编程进阶之SparkConf、spark-
默认的配置属性 spark-submit脚本会自动加载conf/spark-defaults.conf文件中的配置...