美文网首页
Kettle 7.1 链接Hadoop集群配置

Kettle 7.1 链接Hadoop集群配置

作者: 罗启明 | 来源:发表于2017-12-01 14:41 被阅读0次

    背景

    公司想把已有的老数据,放入数据仓库,进行数据分析,需要对数据进行抽取,转换处理,正好接触到了Kettle(ETL),正好记录一下Hadoop如何配置。

    Kettle下载地址:

    社区版下载地址
    下拉到download,然后点击下载即可。

    Kettle官网文档地址:

    kettle 链接hadoop集群配置文档地址

    每个版本有对应的Hadoop版本。
    因为Hadoop集群同事已经搭建好了,这里我只直接创建链接配置,这里我采用的HDP 2.5的链接方式。

    Step 1:

    • 拷贝Hadoop集群如下配置文件备用
      1. core-site.xml
      2. hdfs-site.xml
      3. mapred-site.xml
      4. yarn-site.xml
    • 把上列文件拷贝到plugin/pentaho-big-data-plugin/hadoop-configurations/hadoop/hdp25中。

    Step 2:

    1. 启动Kettle
    2. 从菜单工具中选择Hadoop Distribution,这里我选择的hdp链接方式
    3. 点击OK
    4. 重启Kettle

    Step 3

    1. 创建Hadoop cluster


    2. 写入相关配置,这里我使用的是HDFS,并且已经配置了相关hosts,所以直接填入了域名,如果没有配置hosts,需要采用ip方式


    3. 点击测试,查看是否连接成功,这里主要关注前三个选项。表示Hadoop连接成功。

    遇到的坑:

    1. 在使用Hadoop output控件,向HDFS写入时,遇到无法写入错误。
    Couldn't open file hdfs://hdfs@hdp01.bsteelcloud.cc:8020/user/qqq/1.txt
    Could not create file "hdfs://hdfs@hdp01.bsteelcloud.cc:8020/user/qqq/1_20171201.txt".
    

    最后查明,是因为Kettle在写入时,对应的HDFS目录没有写入权限,需要开放整个目录权限。

    相关文章

      网友评论

          本文标题:Kettle 7.1 链接Hadoop集群配置

          本文链接:https://www.haomeiwen.com/subject/dcfwbxtx.html