美文网首页商业智能BI那点事儿大数据
ETL工具之informatica操作简介

ETL工具之informatica操作简介

作者: Seradata | 来源:发表于2018-08-10 10:35 被阅读4次

        最近正好完成了一个数据类项目,空闲之余,准备简单记录一下项目中用到的ETL相关工具和实际操作流程,分享给大家,同时也是为了加强记忆和学习!

          目前BI项目中大多涉及到ETL抽数工具,调度工具,还有前端展现的报表工具,三大类工具任意挑选其中一门即可,其他原理都一样,看看官方文档,实践操作一下就可以啦!

        数据类的项目,ETL工作量占比很大,这是最基本的准备工作,通常需要将数据从各个源系统抽取出来,经过清洗和转换,加载到目标库!数据加载完成后,集市层将清洗好的数据通过报表工具处理,前端展现,用于数据分析!

        ETL相关的基本概念我就不详细介绍了,大家可以先自行在网上了解一下ETL,BI商业智能,数据仓库等概念和原理!ETL简单的解释就是清洗,转换和加载数据。举个例子,如果我的源数据为文本文件,或者数据存储在db2,mysql,我想把数据抽取到oracle数据库,这时候就要用到ETL抽数工具了。目前用的比较多的抽数工具就是datastage,kettle,informatica等,下面我简单介绍一下informatica的基本流程。

    Informatica主要分为以下5个步骤:

    定义源》定义目标》创建映射》创建工作流》工作流调度监控

    准备工作:

    打开powercenter designer设计器,选择相应的源,目标,映射按钮。

    按钮如下图示:

    ETL工具之informatica操作简介

    1.定义源

    定义源即创建源表,点击source analyzer 》菜单栏》源》从数据库导入.

    创建方式可以是从数据库导入,文本导入,手工创建等!注意填写字段的数据类型,精度大小!

    2.定义目标

    定义目标与定义源类似,点击定义目标按钮》菜单栏》目标》从数据库导入

    创建目标表相应的字段和数据类型

    3.创建映射

    点击创建映射按钮,填写新映射名称,点击确定。将左边的源目录下找到定义的源,将源表直接拖动到映射区域,然后在下面的目标下找到定义的目标,然后根据映射条件生成映射。映射条件可点击右键,选择自动连接》按名称自动链接,由系统自动根据字段名称连线。

    4.创建工作流

    在powerCenter designer 映射界面中,点击右键》生成工作流,会出现下图,勾选包含可重用会话的工作流

    ETL工具之informatica操作简介

    下一步》填写工作流和会话前缀名称后完成工作流的创建。

    5.配置参数

    创建好映射和工作流后,若用到参数,则需在映射和工作流处配置参数

    在designer界面,菜单栏点击映射》参数和变量》配置参数名称

    ETL工具之informatica操作简介

    打开workflow界面,打开相应的工作流》双击会话》属性》填写parameter filename即服务器端的参数路径

    ETL工具之informatica操作简介

    6.配置源和目标库关系连接

    打开workflow,菜单栏选择 连接》关系》新建关系连接,如下图所示

    ETL工具之informatica操作简介

    配置完成后,在workflow界面,双击该工作流的会话》点击映射》选择源和目标》修改为上图配置好的关系连接库,定义好源库和目标库即可。

    ETL工具之informatica操作简介

    7.其他设置

    当源库和目标库为同一类型的数据库,而非跨库抽取时,我们可以使用pushdown下推优化功能,提升效率。配置如下

    路径:workflow界面》会话》属性》pushdown处勾选full

    ETL工具之informatica操作简介

    8.启动工作流

    工作流配置均完成后,程序即可进行执行和监控,可在workflow工作流界面,直接点击右键》启动工作流

    启动完成后,打开workflow monitor界面,即可监控工作流的执行状态和日志等信息。

    9.上线准备:导入导出

    测试通过后,就准备上线啦!

    导出时,需要打开R,即repository manager工具,选择要导出的工作流》右键导出即可。

    导入时,同样通过R工具界面导入即可。


    总结

        以上就是informatica实现抽数的一个最简单的流程,这也只是在windows客户端的基本操作。其实在做这些操作前,还有许多准备工作。比如服务器端的安装配置,windows端的安装配置,资料库权限和账号分配等等。工作中一般运维的同事已经配置好了,我们直接操作即可,但要深究其原理,还是需要仔细去琢磨实践啦!

    Informatica功能还是很强大的,有兴趣的话,可以去看看:杜绍森《informatica powercenter 权威指南》,这本书介绍得很详细啦!

    相关文章

      网友评论

        本文标题:ETL工具之informatica操作简介

        本文链接:https://www.haomeiwen.com/subject/wckkbftx.html