版本:
Kettle:7.1.0.0-12
Hadoop:Hadoop 2.6.0-cdh5.10.2
1、启动Spoon
Spoon是Kettle图形化开发工具。
选择菜单“Tools”->“Hadoop Distribution...”,将“Cloudera CDH 5.10”选中,并点击“OK”。
![](https://img.haomeiwen.com/i5260316/dd7bd46358bc566c.png)
重启Spoon,使得Shim被激活。
2、将Hadoop的配置文件复制到Kettle相应的目录中
在CDH中,hadoop所有组件的客户端配置文件都可以在/etc/中找到。
比如hdfs和yarn:
![](https://img.haomeiwen.com/i5260316/acca0bd5ccf2a1da.png)
将core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml等配置文件复制到Kettle的相应目录中。
![](https://img.haomeiwen.com/i5260316/28d28eeb5fa1aedf.png)
注意要修改这些配置文件。比如hadoop节点的地址是不是正确等。然后重启Spoon。
3、配置Hadoop cluster
打开Spoon,创建一个Job或者Transformation。选择view。
![](https://img.haomeiwen.com/i5260316/c2a4c2bc84dbcf2c.png)
在“Job 1”下,有一个“Hadoop Clusters”,选中点击右键,点击“New Cluster”。
![](https://img.haomeiwen.com/i5260316/3134dc76945ca035.png)
填写相应的配置值。具体含义见下表。
选项 | 含义 |
---|---|
Cluster Name | 集群名称,自定义。 |
Storage | 指定存储类型。类型如下:HDFS,MapR,WASB |
Hostname (in selected storage section) | 存储的主机名/IP |
Port (in selected storage section) | 访问端口 |
Username (in selected storage section) | 访问用户 |
Password (in selected storage section) | 密码 |
Hostname (in JobTracker section) | JobTracker节点主机名/IP |
Port (in JobTracker section) | JobTracker节点访问端口 |
Hostname (in ZooKeeper section) | Zookeeper节点主机名 |
Port (in Zookeeper section) | Zookeeper节点访问端口 |
URL (in Oozie section) | Oozie客户端地址 |
点击“Test”。
![](https://img.haomeiwen.com/i5260316/ad1954bea7b56ef4.png)
显示对勾的说明测试成功,红×说明出现问题,黄三角是警告。应该是复制的hadoop配置文件的配置问题(上面这几个红叉不影响后面的使用,这块的排除暂且跳过)。
4、开发示例
创建“Transformation”,加入“Hadoop File Input”和“Table Output”,并命名为hadoop_input。
![](https://img.haomeiwen.com/i5260316/02d4337a0e43280f.png)
1)配置hadoop集群和数据库源
![](https://img.haomeiwen.com/i5260316/b77913d3f7448844.png)
2)配置“Hadoop File Input”
原始文件如下:
![](https://img.haomeiwen.com/i5260316/057c3dc047a1d52f.png)
复制到HDFS上去。
![](https://img.haomeiwen.com/i5260316/0af68666f0b06f50.png)
现在开始开发配置。
![](https://img.haomeiwen.com/i5260316/55970f7c6873036a.png)
![](https://img.haomeiwen.com/i5260316/cd7887f444e29634.png)
![](https://img.haomeiwen.com/i5260316/409f8227e337fefa.png)
点击“Preview rows”,可以查看获取的内容。
![](https://img.haomeiwen.com/i5260316/e4f5279180aaa0db.png)
点击“OK”保存配置。
3)配置“Table Output”
![](https://img.haomeiwen.com/i5260316/4873950957b607e0.png)
点击“OK”保存配置。
到此配置完成。
4)运行验证
如图,点击运行。
![](https://img.haomeiwen.com/i5260316/ebb476e13e24ba55.png)
点击“RUN”。
![](https://img.haomeiwen.com/i5260316/81ce07b0d328a045.png)
运行成功!
![](https://img.haomeiwen.com/i5260316/3d878f965400e28b.png)
5)到数据库中查询验证。
![](https://img.haomeiwen.com/i5260316/d1e8c15a4adc82a8.png)
网友评论