测试如何使用spark-submit来执行编写的wordcount代码。
1、先简单编写测试文本。
以空格分隔2、将文本提交到hdfs上。
指令为:hadoop fs -put 本地路径文件 hdfs文件路径文件
ps:我的hdfs文件路径为:/datas/wordcount
文件路径3、编写wordcount代码
此代码仅做简单输出4、使用maven的package打包,生成jar包,根据日志找到jar包路径
package打包 jar包路径5、将jar包上传到linux指定目录
jar包上传的linux路径6、spark-submit提交指令
指令此处要注意换行和传入参数。最后一行的传入参数为文件输入路径。参考代码,为文章开头文本的保存路径。
7、输出结果
页面输出
网友评论