一、Hadoop
1. 下载安装
先确定本地安装了java jdk
1. 下载
当然是官网下载最新:
2. 解压你指定的目录
tar -zxvf hadoop-2.9.2.tar.gz /~/software/Hadoop/
2. 修改配置文件
1. 进入hadoopHome/etc/hadoop/
- 修改hadoop-env.sh 文件,找到第25行
24 # The java implementation to use.
25 #export JAVA_HOME=${JAVA_HOME}
26 export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Home
- 修改core-site.xml
<configuration>
<!--配置HDFS的入口,及namenode-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<!-- HDFS工作目录,及临时文件目录,默认是/temp-->
<!-- 其它一些目录是以这个临时目录为基本目录的,如dfs.name.dir等 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/Users/qinxy/software/Hadoop/hadoop-2.9.2/tmp</value>
</property>
</configuration>
- 修改hdfs-site.xml
<!-- 设置hdfs副本数量 -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
- 修改yarn-site.xml
<configuration>
<!--NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程>序-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!--ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应
用程序等。-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
</configuration>
- 修改mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
2. 将hadoop加入环境变量
在~/.bash_profile文件添加
#haddop
HADOOP_HOME=/Users/qinxy/software/Hadoop/hadoop-2.9.2
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_HOME PATH
3. 启动
- 格式化Hadoop,进入目录hadoopHome/etc/hadoop,执行命令
hadoop namenode -format (过时)
hdfs namenode -format
- 启动hdfs和yarn
sbin/start-dfs.sh
sbin/start-yarn.sh
- 验证是否成功,输入命令:jps,输出如下
61826 NodeManager
61236 SecondaryNameNode
60773 NameNode
61734 ResourceManager
62651 Jps
61134 DataNode
- 可以在浏览器中查看hdfs和mr的状态.hdfs管理界面:http://localhost:50070 MR的管理界面:http://localhost:8088
3. hdfs基本操作和wordcount程序
- 进入hadoopHome/share/hadoop/mapreduce目录,ls,带有examples的就是示例程序。
hadoop-mapreduce-client-app-2.9.2.jar
hadoop-mapreduce-client-common-2.9.2.jar
hadoop-mapreduce-client-core-2.9.2.jar
hadoop-mapreduce-client-hs-2.9.2.jar
hadoop-mapreduce-client-hs-plugins-2.9.2.jar
hadoop-mapreduce-client-jobclient-2.9.2-tests.jar
hadoop-mapreduce-client-jobclient-2.9.2.jar
hadoop-mapreduce-client-shuffle-2.9.2.jar
hadoop-mapreduce-examples-2.9.2.jar
jdiff
lib
lib-examples
sources
- 新建words文件,内容如下
hello tom
hello kitty
hello world
hello tom
- 然后使用命令上传到hdfs目录下:
hadoop fs -put words hdfs://localhost:9000/words
或者 hdfs dfs -put words /sqoopTest/hdfs2mysql/words
- 使用命令执行wordcount程序
hadoop jar hadoop-mapreduce-examples-2.9.2.jar wordcount hdfs://localhost:9000/words hdfs://localhost:9000/out
- 打开hdfs管理界面http://localhost:50070/dfshealth.html
点击Browse the filesystem,跳转到文件系统界面
进入out目录,点击part-r-00000,Head the file,wordcount程序最终运行的结果如图所示
3. 配置hive
参考另一篇文章:https://www.jianshu.com/p/0cdcb7624530
网友评论