最近正好完成了一个数据类项目,空闲之余,准备简单记录一下项目中用到的ETL相关工具和实际操作流程,分享给大家,同时也是为了加强记忆和学习!
目前BI项目中大多涉及到ETL抽数工具,调度工具,还有前端展现的报表工具,三大类工具任意挑选其中一门即可,其他原理都一样,看看官方文档,实践操作一下就可以啦!
数据类的项目,ETL工作量占比很大,这是最基本的准备工作,通常需要将数据从各个源系统抽取出来,经过清洗和转换,加载到目标库!数据加载完成后,集市层将清洗好的数据通过报表工具处理,前端展现,用于数据分析!
ETL相关的基本概念我就不详细介绍了,大家可以先自行在网上了解一下ETL,BI商业智能,数据仓库等概念和原理!ETL简单的解释就是清洗,转换和加载数据。举个例子,如果我的源数据为文本文件,或者数据存储在db2,mysql,我想把数据抽取到oracle数据库,这时候就要用到ETL抽数工具了。目前用的比较多的抽数工具就是datastage,kettle,informatica等,下面我简单介绍一下informatica的基本流程。
Informatica主要分为以下5个步骤:
定义源》定义目标》创建映射》创建工作流》工作流调度监控
准备工作:
打开powercenter designer设计器,选择相应的源,目标,映射按钮。
按钮如下图示:
ETL工具之informatica操作简介1.定义源
定义源即创建源表,点击source analyzer 》菜单栏》源》从数据库导入.
创建方式可以是从数据库导入,文本导入,手工创建等!注意填写字段的数据类型,精度大小!
2.定义目标
定义目标与定义源类似,点击定义目标按钮》菜单栏》目标》从数据库导入
创建目标表相应的字段和数据类型
3.创建映射
点击创建映射按钮,填写新映射名称,点击确定。将左边的源目录下找到定义的源,将源表直接拖动到映射区域,然后在下面的目标下找到定义的目标,然后根据映射条件生成映射。映射条件可点击右键,选择自动连接》按名称自动链接,由系统自动根据字段名称连线。
4.创建工作流
在powerCenter designer 映射界面中,点击右键》生成工作流,会出现下图,勾选包含可重用会话的工作流
ETL工具之informatica操作简介下一步》填写工作流和会话前缀名称后完成工作流的创建。
5.配置参数
创建好映射和工作流后,若用到参数,则需在映射和工作流处配置参数
在designer界面,菜单栏点击映射》参数和变量》配置参数名称
ETL工具之informatica操作简介打开workflow界面,打开相应的工作流》双击会话》属性》填写parameter filename即服务器端的参数路径
ETL工具之informatica操作简介6.配置源和目标库关系连接
打开workflow,菜单栏选择 连接》关系》新建关系连接,如下图所示
ETL工具之informatica操作简介配置完成后,在workflow界面,双击该工作流的会话》点击映射》选择源和目标》修改为上图配置好的关系连接库,定义好源库和目标库即可。
ETL工具之informatica操作简介7.其他设置
当源库和目标库为同一类型的数据库,而非跨库抽取时,我们可以使用pushdown下推优化功能,提升效率。配置如下
路径:workflow界面》会话》属性》pushdown处勾选full
ETL工具之informatica操作简介8.启动工作流
工作流配置均完成后,程序即可进行执行和监控,可在workflow工作流界面,直接点击右键》启动工作流
启动完成后,打开workflow monitor界面,即可监控工作流的执行状态和日志等信息。
9.上线准备:导入导出
测试通过后,就准备上线啦!
导出时,需要打开R,即repository manager工具,选择要导出的工作流》右键导出即可。
导入时,同样通过R工具界面导入即可。
总结
以上就是informatica实现抽数的一个最简单的流程,这也只是在windows客户端的基本操作。其实在做这些操作前,还有许多准备工作。比如服务器端的安装配置,windows端的安装配置,资料库权限和账号分配等等。工作中一般运维的同事已经配置好了,我们直接操作即可,但要深究其原理,还是需要仔细去琢磨实践啦!
Informatica功能还是很强大的,有兴趣的话,可以去看看:杜绍森《informatica powercenter 权威指南》,这本书介绍得很详细啦!
网友评论