数据清洗-scala环境部署及抽数流程

作者: WAY2DataSci | 来源:发表于2018-01-25 11:25 被阅读84次

1.下载scala-ide, 下载地址：http://www.scala-lang.org/download/ 或者 http://scala-ide.org/download/sdk.html

2. 完成scala-ide的安装

双击eclipse.exe完成安装

3. 安装完成后新建project

相继点击 “File-New-Project”进入下图界面

选择scala project，点击下一步

project命名及路径设置

点击 open perspective

4. 右键点击已经新建的project，进入新建package页面

为新建的package命名，后缀为etl

5. 右键点击新建好的package，新建scala文件

右键点击test.etl新建file

6. 为project（TEST_ONE）设置properties（右键TEST_ONE）

点击新增外部的jars

添加spark环境集成jar包

7. 在上图中的scala compiler选择 scala安装版本

选择安装的scala版本并应用关闭

8.开始编写scala程序

只有导入上面图中spark集成jar包后，这里的import语句才会生效

9. 编写完成后导出jar包

右键点击刚才编写好的scala文件，并点击export，进入下图：

选择JAR file，点击下一步

设置好jar包存放路径点击完成即可

10. 将jar包存放到相应的服务器目录，即可用相关命令调用spark-shell，开始抽数。

（1）点击进入xshell5（视相应的环境而定）

（2）点击新建文件传输，将文件传输到相应的服务器目录（视相应的环境而定）

新建文件传输

（3）建立对应的表结构，运行spark shell命令语句

spark-submit --queue root.spark --conf spark.sql.shuffle.partitions=1 --total-executor-cores= m --executor-memory=xg --driver-memory=xg --class test.etl.test.jar 参数参数（m,x,x为相应大小数字，视相应环境而定）

网友评论

本文标题：数据清洗-scala环境部署及抽数流程

本文链接：https://www.haomeiwen.com/subject/szgmaxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据清洗-scala环境部署及抽数流程

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读