美文网首页
数据基石

数据基石

作者: 晓在IT | 来源:发表于2020-11-14 19:50 被阅读0次

在年底努力做个人软件产权的同时,先对当前方法进行简单记录。

1、ETL和ELT的区别

基本概念:
• 抽取是将数据从已有的数据源中提取出来,例如通过 JDBC/Binlog 方式获取 MySQL 数据库的增量数据;
• 转换是对原始数据进行处理,例如将用户属性中的手机号替换为匿名的唯一 ID、计算每个用户对商品的平均打分、计算每个商品的购买数量、将 B 表的数据填充到 A 表中形成新的宽表等;
• 加载是将数据写入目的地。
场景导致转化和和加载的顺序发生变化:
• ETL 在数据源抽取后首先进行转换,然后将转换的结果写入目的地。
• ELT 则是在抽取后将结果先写入目的地,然后由下游应用利用数据库的聚合分析能力或者外部计算框架,例如 Spark 来完成转换的步骤。
为什么会这样,并且ELT更加适合AI的应用场景?

2、ETL和ELT分别适用哪些场合

ELT更加适合AI前线的场景:
在具体算法建模过程中,每个算法所需要的训练数据不同,所以ETL中做再多的T操作,在实际运用中都会发生变化。
• 首先这是由 AI 应用对数据转换的高度灵活性需求决定的。 绝大多数 AI 应用使用的算法模型都包括一个特征提取和变换的过程。根据算法的不同,这个特征提取可能是特征矩阵的简单的归一化或平滑处理,也可以是用 Aggregation 函数或 One-Hot 编码进行维度特征的扩充,甚至特征提取本身也需要用到其它模型的输出结果。这使得 AI 模型很难直接利用 ETL 工具内建的转换功能,来完成特征提取步骤。此外,企业现在很少会从零构建 AI 应用。当应用包括 Spark/Flink MLlib 在内的机器学习框架时,内建的模型库本身往往包含了特征提取和变换的逻辑,这使得在数据提取阶段就做复杂变换的必要性进一步降低;
• 其次,企业经常会基于同样的数据构建不同应用。 以我之前所在的一家在线教育公司为例,我们构建了两个 AI 的应用:其中一个是针对各类课程的推荐应用,主要用于增加用户的购买转化率。另外一个是自适应学习系统,用于评估用户的知识掌握程度和题目的难度和区分度,从而为用户动态地规划学习路径。两个应用都需要用户属性、做题记录、点击行为以及学习资料文本,但采用的具体模型的特征提取和处理方式完全不同。如果用 ETL 模式,我们需要从源端抽取两遍数据。而采用 ELT 模式,所有数据存储在 HBase 中,不同的应用根据模型需要过滤提取出所需的数据子集,在 Spark 集群完成相应的特征提取和模型计算,降低了对源端的依赖和访问频次;
• 最后,主流的机器学习框架,例如 Spark MLlib 和 Flink MLlib,对于分布式、并行化和容错都有良好的支持,并且易于进行节点扩容。 采用 ELT 模式,我们可以避免构建一个专有数据转换集群(可能还伴随着昂贵的 ETL 产品 License 费用),而是用一个通用的、易于创建和维护的分布式计算集群来完成所有的工作,有利于降低总体拥有成本,同时提升系统的可维护性和扩展性。

相关文章

  • 数据基石

    在年底努力做个人软件产权的同时,先对当前方法进行简单记录。 1、ETL和ELT的区别 基本概念:• 抽取是将数...

  • 《智能时代》读书笔记1

    第一章:数据—人类建造文明的基石 现象、数据、信息和知识 数据是文明的基石,人类对它的认识也反映了文明的程度。信息...

  • 入门大数据组件

    Google三驾马车,大数据基石: GFS:存储->hdfs MapReduce:分析->hadoop Bigta...

  • 《智能时代》

    第一章 数据-人类建造文明的基石 1.数据≠数字,数据包含数字。并非所有数据都是有信息的,数据≠信息。数据包含语...

  • 数据处理基石:Pandas数据探索

    Pandas数据初探索 本文介绍的是Pandas数据初探索。当我们生成或者导入了数据之后,通过数据的探索工作能够快...

  • 数据中台之基石:基于Flink SQL构建实数据仓库

    OPPO数据中台之基石:基于Flink SQL构建实数据仓库 - OPPO 实时数仓的演进思路; - 基于 Fli...

  • 是企业管理数据资产的最佳启动方式

    什么是「数据资产」? 数据资产化是企业数字化转型的基石,是把数据原矿提纯为数据金子的必经之路。 那么为了完成从原矿...

  • HTML

    一、HTML的基本概念互联网三大基石:1.html:显示数据2.http:传输数据 url :定位数据协议://i...

  • 招聘贴--阿里云对象存储团队

    团队:阿里云对象存储团队 存储团队是阿里云基石:支撑弹性计算、数据仓库、对象存储、数据库、文件系统、以及流数据管道...

  • 基于Flume的日志收集系统架构和设计

    1 日志收集系统简介日志收集是大数据的基石。 许多公司的业务平台每天都会产生大量的日志数据。收集业务日志数据,供离...

网友评论

      本文标题:数据基石

      本文链接:https://www.haomeiwen.com/subject/bdiwbktx.html