美文网首页
hadoop wordcount

hadoop wordcount

作者: 零点145 | 来源:发表于2019-06-05 11:39 被阅读0次

    Hadoop版本:hadoop-1.0.4

    第一步:先启动hadoop守护进程、在hadoop 的bin目录下执行。

    1.格式化:hadoop namenode -format

    2.启动服务:start-all.sh hadoop-daemon.sh start namenode  hadoop-daemon.sh start datanode (很多时候,这namenode和datanode都没有起来、有些不知道为什么).

    第二步:在eclipse上安装hadoop插件

    1.复制hadoop-eclipse-plugin-1.0.3.jar 到 eclipse安装目录/dropins/ 下。

    2.重启eclipse,配置hadoop installation directory。

    如果安装插件成功,打开Window-->Preferens,你会发现Hadoop Map/Reduce选项,在这个选项里你需要配置Hadoop installation directory。配置完成后退出。

    3.配置Map/Reduce Locations。

    在Window-->Show View中打开Map/Reduce Locations。

    在Map/Reduce Locations中新建一个Hadoop Location。在这个View中,右键-->New Hadoop Location。在弹出的对话框中你需要配置Location name,如Hadoop,还有Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。如:

    Map/Reduce Master

    192.168.1.101

    9001

    DFS Master

    192.168.1.101

    9000

    配置完后退出。点击DFS Locations-->Hadoop如果能显示文件夹(2)说明配置正确,如果显示"拒绝连接",请检查你的配置。

    第三步:新建项目。

    File-->New-->Other-->Map/Reduce Project

    项目名可以随便取,如HadoopTest。

    将hadoop中的WordCount.java复制到hadooptest中。

    第四步:上传模拟数据文件夹。

    为了运行程序,我们需要一个输入的文件夹,和输出的文件夹。

    在本地新建word.txt

    aaa

    abc

    asdf

    sdf

    sdf

    sdfdd

    sdaa asdfasdf

    通过hadoop的命令在HDFS上创建input目录,命令如下:bin/hadoop fs -mkdir input  默认是在:/user/root/下

    通过copyFromLocal命令把本地的word.txt复制到HDFS上,命令如下:bin/hadoop fs -copyFromLocal /home/hadoop/word.txt  /user/root/input/word.txt 或者是将:copyFromLocal 换成put 命令。

    通过hadoop fs -ls input 命令来查看文件是否上传上去了。

    第五步:运行项目

    1.在新建的项目Hadoop,点击WordCount.java,右键-->Run As-->Run Configurations

    2.在弹出的Run Configurations对话框中,点Java Application,右键-->New,这时会新建一个application名为WordCount

    3.配置运行参数,点Arguments,在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”,如:

    hdfs://192.168.1.101:9000/user/root/input/word.txt   hdfs://192.168.1.101:9000/user/root/input/output

    4、如果运行时报java.lang.OutOfMemoryError: Java heap space 配置VM arguments(在Program arguments下)

    -Xms512m -Xmx1024m -XX:MaxPermSize=256m

    5.点击Run,运行程序。

    点击Run,运行程序,过段时间将运行完成,等运行结束后,查看运行结果,使用命令: bin/hadoop fs -ls /user/root/input/output查看例子的输出结果,发现有两个文件夹和一个文件,使用命令查看part-r-00000文件, bin/hadoop fs -cat /user/root/output/part-r-00000可以查看运行结果。

    相关文章

      网友评论

          本文标题:hadoop wordcount

          本文链接:https://www.haomeiwen.com/subject/dopjxctx.html