hadoop的环境配置
拉取hadoop:2.7.0的镜像(pull了好长时间)
docker pull sequenceiq/hadoop-docker:2.7.0
运行镜像创建容器,这里指定端口就可以通过web浏览器访问hadoop管理系统
docker run -it -p 50070:50070 -p 8088:8088 -p 50075:50075 sequenceiq/hadoop-docker:2.7.0 /etc/bootstrap.sh -bash
进入到/usr/local/hadoop文件夹下运行内置实例程序
cd /usr/local/hadoop
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input output 'dfs[a-z.]+'
hdfs查看结果指令
bin/hdfs dfs -cat output/*
hadoop wordcount实践
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版”Hello World”,单词计数主要完成功能是:统计一系列文本文件中每个单词出现的次数
还是在刚才的目录下
bin/hadoop fs -mkdir hdfsinput
bin/hadoop fs -ls
执行完能看到,多了hdfs文件夹
把/usr/local/hadoop/目录下的README文档放入input中,再执行下面这句
bin/hadoop fs -put /usr/local/hadoop/README.txt hdfsinput
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar wordcount hdfsinput hdfsoutput
执行完,输出如下
查看hdfsoutput及文件夹中的结果,输出了对应的词与词频!
bin/hadoop fs -ls hdfsoutput
bin/hadoop fs -cat hdfsoutput/part-r-00000
网友评论