ETL入门

作者: 阿猫阿狗Hakuna | 来源:发表于2018-11-26 14:18 被阅读4次

1.数据仓库与数据集市

       数据仓库是单一的,大量(历史性)数据的存储仓库,可用来支持企业决策。因此,它所涉及的数据涵盖了各种主题和各种业务领域,例如金融、物流、市场营销和客户支持。通常,一个数据仓库是不能被终端用户工具直接访问的。
       相反,一个数据集市可以由终端用户直接访问,并且是以特定的数据分析为目的的,例如零售或客户来电。

2.ETL、ELT和EII

       下图为一个典型的数据仓库架构:


image.png
  • ETL是指从一个或多个数据源抽取数据,经过一个或多个转换步骤后,物理地存储到目标环境中,目标环境通常是数据仓库。
  • ELT同ETL在数据整合方法上略微不同。在ELT情况下,数据首先从源数据进行抽取、加载到目标数据库中,再转换为所需的格式。所有大数据量处理全部放在目标数据库中进行。
  • EII:虚拟数据整合,ETL和ELT都是以武力方式将数据从OLTP移动或复制到数据仓库。除了物理数据集成方式,还有虚拟数据集成方式也可以满足用户访问数据的要求。这种虚拟数据集成方式就是企业信息集成,也就是EII。这种方法的主要优点是数据永远都是最新的,以及不需要额外的存储层,没有冗余数据。以下为物理与虚拟方案的比较:


    image.png

3.增量数据捕获CDC

       辨别出哪些数据发生变化,并抽取那些自上次抽取后发生变化的数据的过程称为增量数据捕获,也叫CDC。
       在CDC处理方式上有两种基本分类,侵入式和非侵入式。侵入式是指CDC操作会对源系统有一定性能影响。不论以何种方式,只要对源系统执行了SQL语句,就是侵入式的。大部分的CDC方法都是侵入式的,只有一种不是。

相关文章

  • ETL入门

    1.数据仓库与数据集市 数据仓库是单一的,大量(历史性)数据的存储仓库,可用来支持企业决策。因此,它所涉及的...

  • PDI 7.1 入门实例

    这是一个官方的入门实例,实现完整的ETL流程包括提取数据,转换数据和载入数据。并使用作业控制ETL流程的执行。 一...

  • ETL入门系列 之 ETL是什么

    ETL定义 字面含义:ETL是抽取、转换、加载的缩写。 简单定义:将数据从OLTP系统中转移到数据仓库中的一系列操...

  • ETL入门系列 之 ETL工具的功能

    通过了解一般ETL工具必备的特性和功能,这样可以判断出Kettle是否适用你手边的工作。 连接 任何ETL工具都应...

  • Ruby ETL 工具漫谈

    activewarehouse-etl ActiveWarehouse ETL 应该是最早的Ruby ETL工具,...

  • ETL TEST(etl 测试)

    一、etl测试概念 etl分别是Extraction, Transformation, and Loading。 ...

  • Spark core完成ETL项目

    前面Hadoop MR ETL项目文章Hadoop MR ETL离线项目1基于ETL离线项目的改造2 一、 Spa...

  • 数据仓库快速入门教程5-ETL与ELT的差异

    什么是ETL? ETL是Extract,Transform和Load的缩写。 在此过程中,ETL工具从不同的RDB...

  • 数据仓库快速入门教程4-ETL

    什么是ETL? ETL是Extract,Transform和Load的缩写。 在此过程中,ETL工具从不同的RDB...

  • 数据仓库快速入门教程3-ETL

    什么是ETL? ETL是Extract,Transform和Load的缩写。 在此过程中,ETL工具从不同的RDB...

网友评论

    本文标题:ETL入门

    本文链接:https://www.haomeiwen.com/subject/wuovqqtx.html