Kettle链接Hadoop的配置过程

Kettle链接Hadoop的配置过程

作者: mikeliuy | 来源:发表于2017-10-16 16:01 被阅读801次

Kettle链接Hadoop的配置过程
Kettle连接Hadoop配置过程
Kettle 7.1 链接Hadoop集群配置
kettle配置hadoop集群报错
51cto赵强HADOOP学习（七）
Kettle-Hadoop file插件支持kerberos
linux系统下调度数据库类型资源库中的kettle job
配置hadoop过程出错
Hadoop安装部署过程
通过Docker快速搭建Hadoop测试环境

版本：
Kettle：7.1.0.0-12
Hadoop：Hadoop 2.6.0-cdh5.10.2

1、启动Spoon

Spoon是Kettle图形化开发工具。
选择菜单“Tools”->“Hadoop Distribution...”，将“Cloudera CDH 5.10”选中，并点击“OK”。

Hadoop Distribution

重启Spoon，使得Shim被激活。

2、将Hadoop的配置文件复制到Kettle相应的目录中

在CDH中，hadoop所有组件的客户端配置文件都可以在/etc/中找到。
比如hdfs和yarn：

hadoop客户端配置文件

将core-site.xml，hdfs-site.xml，yarn-site.xml，mapred-site.xml等配置文件复制到Kettle的相应目录中。

Kettle的Hadoop插件配置目录

注意要修改这些配置文件。比如hadoop节点的地址是不是正确等。然后重启Spoon。

3、配置Hadoop cluster

打开Spoon，创建一个Job或者Transformation。选择view。

Hadoop clusters

在“Job 1”下，有一个“Hadoop Clusters”，选中点击右键，点击“New Cluster”。

New Cluster配置

填写相应的配置值。具体含义见下表。

选项	含义
Cluster Name	集群名称，自定义。
Storage	指定存储类型。类型如下:HDFS，MapR，WASB
Hostname (in selected storage section)	存储的主机名/IP
Port (in selected storage section)	访问端口
Username (in selected storage section)	访问用户
Password (in selected storage section)	密码
Hostname (in JobTracker section)	JobTracker节点主机名/IP
Port (in JobTracker section)	JobTracker节点访问端口
Hostname (in ZooKeeper section)	Zookeeper节点主机名
Port (in Zookeeper section)	Zookeeper节点访问端口
URL (in Oozie section)	Oozie客户端地址

点击“Test”。

测试结果

显示对勾的说明测试成功，红×说明出现问题，黄三角是警告。应该是复制的hadoop配置文件的配置问题（上面这几个红叉不影响后面的使用，这块的排除暂且跳过）。

4、开发示例

创建“Transformation”，加入“Hadoop File Input”和“Table Output”，并命名为hadoop_input。

示例

1）配置hadoop集群和数据库源

hadoop集群和数据库

2）配置“Hadoop File Input”

原始文件如下：

原始文件

复制到HDFS上去。

复制

现在开始开发配置。

配置HDFS的文件路径

文件Content配置

文件Fields定义

点击“Preview rows”，可以查看获取的内容。

预览抽取内容

点击“OK”保存配置。

3）配置“Table Output”

表的配置

点击“OK”保存配置。
到此配置完成。

4）运行验证

如图，点击运行。

工具栏

点击“RUN”。

Run

运行成功！

运行成功

5）到数据库中查询验证。

数据库查询

相关文章

Kettle链接Hadoop的配置过程
版本：Kettle：7.1.0.0-12Hadoop：Hadoop 2.6.0-cdh5.10.2 1、启动Spo...
Kettle连接Hadoop配置过程
连接准备官网下载kettle8.1,9.0版本更改了hadoop连接方式，搞了半天也没成。部署Hadoop和C...
Kettle 7.1 链接Hadoop集群配置
背景公司想把已有的老数据，放入数据仓库，进行数据分析，需要对数据进行抽取，转换处理，正好接触到了Kettle(E...
kettle配置hadoop集群报错
The Active Shim has not been set. 打开plugins\pentaho-big-d...
51cto赵强HADOOP学习（七）
利用ZK实现Hadoop的HA 利用ZooKeeper实现Hadoop的高可用特性配置信息链接：https:/...
Kettle-Hadoop file插件支持kerberos
因为默认的kettle-hadoop file插件并没有支持kerberos认证的hadoop集群。而目公司的集群...
linux系统下调度数据库类型资源库中的kettle job
进入linux系统，切换至kettle所属用户（确保kettle已经在linux系统上配置OK）配置OK体现：A:...
配置hadoop过程出错
转：Hadoop之—— WARN util.NativeCodeLoader: Unable to load na...
Hadoop安装部署过程
Hadoop安装部署过程 ------------ 1、配置hosts ------------ #在文件末添加 ...
通过Docker快速搭建Hadoop测试环境
搭过Hadoop的人都知道，Hadoop的搭建过程非常的繁琐，需要配置大量的环境，修改大量的配置文件，因此搭建一个...

网友评论

本文标题：Kettle链接Hadoop的配置过程

本文链接：https://www.haomeiwen.com/subject/vtakuxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Kettle链接Hadoop的配置过程|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！