美文网首页
数据清洗-scala环境部署及抽数流程

数据清洗-scala环境部署及抽数流程

作者: WAY2DataSci | 来源:发表于2018-01-25 11:25 被阅读84次

    1.下载scala-ide, 下载地址:http://www.scala-lang.org/download/   或者  http://scala-ide.org/download/sdk.html

    2. 完成scala-ide的安装

    双击eclipse.exe完成安装

    3. 安装完成后新建project

    相继点击 “File-New-Project”进入下图界面

    选择scala project,点击下一步 project命名及路径设置 点击 open perspective

    4. 右键点击已经新建的project,进入新建package页面

    为新建的package命名,后缀为etl

    5. 右键点击新建好的package,新建scala文件

    右键点击test.etl新建file

    6. 为project(TEST_ONE)设置properties(右键TEST_ONE)

    点击新增外部的jars 添加spark环境集成jar包

    7. 在上图中的scala compiler选择 scala安装版本

    选择安装的scala版本并应用关闭

    8.开始编写scala程序

    只有导入上面图中spark集成jar包后,这里的import语句才会生效

    9. 编写完成后导出jar包

    右键点击刚才编写好的scala文件,并点击export,进入下图:

    选择JAR file,点击下一步 设置好jar包存放路径点击完成即可

    10. 将jar包存放到相应的服务器目录,即可用相关命令调用spark-shell,开始抽数。

    (1)点击进入xshell5(视相应的环境而定)

    (2)点击新建文件传输,将文件传输到相应的服务器目录(视相应的环境而定)

    新建文件传输

    (3)建立对应的表结构,运行spark shell命令语句

    spark-submit --queue root.spark --conf spark.sql.shuffle.partitions=1 --total-executor-cores= m --executor-memory=xg --driver-memory=xg --class test.etl.test.jar 参数 参数  (m,x,x为相应大小数字,视相应环境而定)

    相关文章

      网友评论

          本文标题:数据清洗-scala环境部署及抽数流程

          本文链接:https://www.haomeiwen.com/subject/szgmaxtx.html