背景
公司想把已有的老数据,放入数据仓库,进行数据分析,需要对数据进行抽取,转换处理,正好接触到了Kettle(ETL),正好记录一下Hadoop如何配置。
Kettle下载地址:
社区版下载地址
下拉到download,然后点击下载即可。
Kettle官网文档地址:
每个版本有对应的Hadoop版本。
因为Hadoop集群同事已经搭建好了,这里我只直接创建链接配置,这里我采用的HDP 2.5的链接方式。
Step 1:
- 拷贝Hadoop集群如下配置文件备用
- core-site.xml
- hdfs-site.xml
- mapred-site.xml
- yarn-site.xml
- 把上列文件拷贝到
plugin/pentaho-big-data-plugin/hadoop-configurations/hadoop/hdp25
中。
Step 2:
- 启动Kettle
- 从菜单工具中选择Hadoop Distribution,这里我选择的hdp链接方式
- 点击OK
- 重启Kettle
Step 3
-
创建Hadoop cluster
-
写入相关配置,这里我使用的是HDFS,并且已经配置了相关hosts,所以直接填入了域名,如果没有配置hosts,需要采用ip方式
- 点击测试,查看是否连接成功,这里主要关注前三个选项。表示Hadoop连接成功。
遇到的坑:
- 在使用Hadoop output控件,向HDFS写入时,遇到无法写入错误。
Couldn't open file hdfs://hdfs@hdp01.bsteelcloud.cc:8020/user/qqq/1.txt
Could not create file "hdfs://hdfs@hdp01.bsteelcloud.cc:8020/user/qqq/1_20171201.txt".
最后查明,是因为Kettle在写入时,对应的HDFS目录没有写入权限,需要开放整个目录权限。
网友评论