一、Kettle7.1安装
Kettle 7.1下载地址:https://nchc.dl.sourceforge.net/project/pentaho/Data%20Integration/7.1/pdi-ce-7.1.0.0-12.zip
下载完成后Kettle解压缩放置任意盘即可,双击运行。
二、GPload环境准备与安装
1、安装包准备:
(1)python2.5.4版本
- GPload的加载程序(gpload.py)使用python写的,并且windows下面GPload只支持python2.5.4版本,用其他版本运行会报异常;python的版本只能是32位,不然也会报异常。
(2)PyGreSQL-4.1.1.win-amd64-py2.5.msi&PyGreSQL-4.1.1.win-amd64-py2.5.exe
- greenplum的内核是PostGrelSql,这个组件是python调用PostGreSql所使用
(3)PyYAML-3.10.win32-py2.5.exe
- 这个组件使用写一些配置文件所使用如(*.yml)
(4)greenplum-loaders-5.15.1-WinXP-x86_32.msi这个是windows下面GPload的安装包
2、软件安装
(1)python安装:运行python安装包,安装到指定目录,其中有一步安装选择用户时,选择"this user only" 不然安装PyGreSQL和PyYAML的python组件会找不到python注册目录。安装完成打开cmd控制台输入python,如果出现不是内部或外部命令,则请配置环境变量。
(2)PyGreSQL请先安装msi文件,再安装exe文件,选择用户时也选择"this user only"。
(3)PyYAML直接安装就行,选择用户也选择"this user only"。
(4)greenplum-loaders-5.15.1-WinXP-x86_32.msi直接安装就行。
GPload使用
1、配置文件&数据准备
新建一个load.yml文件,内容如下:
load.yml
DATABASE: gpdb name #gp数据库名
USER: gpdb username #gp用户名
HOST: gpdb host #gp数据ip地址
PORT: gpdb port #gp端口
GPLOAD:
INPUT:
- SOURCE:
LOCAL_HOSTNAME:
- file host #加载文件ip地址
FILE:
- gpload data file #文件地址
- COLUMNS: #加载的列
- id: varchar(50)
- ctif_tp: varchar(10)
- FORMAT: file format csv/text #文件格式csv/text
- DELIMITER: ',' #文件中数据分隔符
- ERROR_LIMIT: 100 #超过多少错误gpload停止
- LOG_ERRORS: True
OUTPUT:
- TABLE: test #gpdb表名
- MODE: insert #gpload处理方式 insert/update/merage
准备数据test.csv文件
00023810,1
00023811,2
00023813,2
00023814,2
6000060000,1
6000060000,2
GPload使用要打开对应的gpfdist服务,运行bin目录下的gpfdist.exe即可
打开控制台进入GPload的安装目录,调用命令python gpload.py -f load.yml。弹出输入password密码后GPload就会把数据插入GP数据库中。
网友评论