数据分析学习记录W23——ETL经验点

作者: 演奏的船长 | 来源:发表于2019-11-21 18:05 被阅读0次

将近期一些经验点罗列了一下，有些非常的简单，但对于初学者却就是会造成误解和麻烦。同时再次体会到，很多理解上的困难，其实就是一些基本的概念、认知、框架缺失造成的。一旦有了框架，后面再“添砖加瓦”就相对容易了。

KETTLE
- <转换>由输入/转换/输出构成的流程，功能类似preap
- <作业>将转换和相关作业组建串联起来，形成的一个整体的任务
  - <主对象树>展示一个job的基本属性
  - 作业必须从strat开始，按住shift拖放实现连线
- <正则表达式>字符串匹配的模式，如通配符*
- <JDBC>（Java DataBase Connectivity,java数据库连接）一种用于执行SQL语句的Java API，可以为多种关系数据库提供统一访问，它由一组用Java语言编写的类和接口组成。
- MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想
- 数据仓库的基本构架，一般底层HDFS，上面跑MapReduce/Tez/Spark，再上面跑Hive，Pig。或者HDFS上直接跑Impala，Drill，Presto。这解决了中低速数据处理的要求。
  
  图片来自网络
背景知识
- 数据表层
  * DIM，维表
  * DW，从ODS初步整合的宽表
  * DMK，KPI
  * DMR，Report
  * meterial code=model_code+opt_code+vcl_clr_code
提效技巧
- DBeaver
  - 可在字段名进行自定义过滤，并直接查看值构成，不用写SQL
  - 更改大小写 ctrl+shift+x/y
  - 收藏ctrl+shift+alt+d
- AS不仅可以用来取别名，还可以快速创建字段并统一赋值，可用于表合并时建立标识字段
- NVL(A,B)若A不为空就取A值，否则取B值，若都为空则返回null

网友评论

本文标题：数据分析学习记录W23——ETL经验点

本文链接：https://www.haomeiwen.com/subject/wgraictx.html

数据分析学习记录W23——ETL经验点