美文网首页
docker入门四:hadoop实践

docker入门四:hadoop实践

作者: 沿哲 | 来源:发表于2020-10-11 11:16 被阅读0次

hadoop的环境配置

拉取hadoop:2.7.0的镜像(pull了好长时间)

docker pull sequenceiq/hadoop-docker:2.7.0

运行镜像创建容器,这里指定端口就可以通过web浏览器访问hadoop管理系统

docker run -it -p 50070:50070 -p 8088:8088 -p 50075:50075 sequenceiq/hadoop-docker:2.7.0 /etc/bootstrap.sh -bash

进入到/usr/local/hadoop文件夹下运行内置实例程序

cd /usr/local/hadoop
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input output 'dfs[a-z.]+'

hdfs查看结果指令

bin/hdfs dfs -cat output/*

hadoop wordcount实践

单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版”Hello World”,单词计数主要完成功能是:统计一系列文本文件中每个单词出现的次数

还是在刚才的目录下

bin/hadoop fs -mkdir hdfsinput
bin/hadoop fs -ls 

执行完能看到,多了hdfs文件夹


把/usr/local/hadoop/目录下的README文档放入input中,再执行下面这句

bin/hadoop fs -put /usr/local/hadoop/README.txt hdfsinput
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar wordcount hdfsinput hdfsoutput

执行完,输出如下



查看hdfsoutput及文件夹中的结果,输出了对应的词与词频!

bin/hadoop fs -ls hdfsoutput
bin/hadoop fs -cat hdfsoutput/part-r-00000

相关文章

网友评论

      本文标题:docker入门四:hadoop实践

      本文链接:https://www.haomeiwen.com/subject/peplpktx.html