美文网首页java
kettle入门篇(一)

kettle入门篇(一)

作者: Shawn_Shawn | 来源:发表于2020-07-12 23:22 被阅读0次

    简介

    Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。

    Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

    Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

    安装

    1. 官网各版本下载网址:https://sourceforge.net/projects/pentaho/files/

    2. 点击Pentaho 9.0,并选择client-tools

    3. 点击pdi-ce-9.0.0.0-423.zip,下载好解压即可

    4. 由于Kettle是基于jdk环境运行,所以需要安装jdk,最小安装jdk1.8。

    5. 解压以后,需要配置环境变量,KETTLE_HOME

    目录结构

    主要介绍:

    lib: kettle运行需要的jar包,例如连接数据库资源库的时候,需要数据库驱动jar包。

    libswt: kettle ui界面需要的jar包,分为linux,os,win32,win64

    plugins:kettle是插件式开发模式,可以开发kettle plugin。例如big data plugin,json plugin等等。

    pwd: 部署集群的时候需要

    simples: kettle一些案例

    ui: 控制kettle ui组件的显示

    spoon: 允许你通过图形界面来设计ETL转换过程(Transformation)。

    pan: 允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。

    chef: 任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。

    kitchen: 允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是一个后台运行的程序。

    连接资源库

    1. 检查是否有数据库驱动jar包,如果没有,先copy一份数据库驱动jar包到lib目录下,例如mysql数据库,需要mysql-connector-java-5.1.46.jar

    2. 在数据库中创建数据库kettle_repository

    3. 点击spoon.bat,打开了以后点击connect,点击repository manager

    4. 点击Add

    5. 点击other repository

    6. 选择database repository然后点击get started

    7. 填写display name,选择database connection

    8. 点击new

    9. 然后一直点击back,直到第七个步骤的界面,点击finish

    10. 当出现以下见面的时候,表示kettle正在创建所需要的表。

    (表截图截的不全)

    11. 点击connect now,user name: admin, password: admin

    相关文章

      网友评论

        本文标题:kettle入门篇(一)

        本文链接:https://www.haomeiwen.com/subject/mdoncktx.html