数仓入门基础-2-技术栈

作者: 乌拉乌拉儿 | 来源:发表于2019-09-20 23:42 被阅读0次

1.hive sql >> 五星

在大多数的工作中,主要用的语言就是sql,说难不难,只要做的多了,基本就可以融会贯通,当然也要了解 hive ,清楚常运用到的优化方法。
推荐书籍:《hive权威指南》
技能点:
-1.常用的sql 查询语句,select where sum group order常用sql语句,row_number()over等窗口函数使用,map,struct等类型使用。
-2.hive优化,map join ,常用参数设置,数据倾斜处理,执行计划解析等
-3.表设置,内部表、外部表、临时表使用,表存储与文件压缩方式,列式存储的好处,parquet 与orc的使用
-4.了解hive metastore元数据,分区信息表,表信息表等

2.数仓理论知识 >>五星

理论是实践的根本,懂得前人的方法才能使得实践起来的心用手。
推荐书籍:《数据仓库工具箱-维度建模权威指南》,《大数据之路-阿里巴巴大数据实践》
技能点:
-1.星型模型与雪花模型
-2.数据分层,维度与事实
-3.inmon与Kimball模型
-4.数仓规范
-5.拉链表(缓慢变化维)

3. Hadoop (hdfs ,map reduce,yarn) >>五星

为了了解你的sql到底是怎么执行,怎么存储的,一个sql语句变成了怎样的mr任务,怎么调整你的sql语句才会更快,这块的知识也比较重要的。
推荐书籍:《hadoop权威指南》,《hadoop技术内幕》,《大数据日知录》
技能点:
-1.熟悉mr执行过程,split,map,partition,shuffle,reduce..特别的是shuffle过程是面试中常常问到的,最好可以写个简易mr程序进行调试一下。
-2.了解hdfs 架构,namenode,datanode结构,熟练使用hdfs操作命令
-3.了解yarn 工作原理,ha的实现的等

4.spark、storm、flink >>四星

对于现在用spark sql比较多,所以spark 的工作原理也是有必要了解的,同时在实时数据上面,spark streaming 、storm、flink是互联网公司都在用的,目前都在向flink迁移,flink是支持sql,支持窗口的,所以前景很光明,作为一个离线数仓工作者就不赘述了。

5.数据抽取 >>四星

-1.了解日志采集、埋点
-2.抽取数据工具,sqoop,datax等

6.平台技术 >>3星

-1.调度平台,数据工作者必用的平台,开源的有azkaban、DolphinScheduler(中国人开发的)等。
-2.可视化平台,superset、redash等开源的报表展示平台。
-3.元数据平台,数据表查询,血缘关系,口径查询,资源使用,数据热度,答疑社区等,一般都自研。
-4.数据质量,监控数据保证数据准确性,预测数据监控,开源有grfflin等。
-5.智能化数据分析平台,通过勾勾选选,跑出产品运营想要的数据。


任乌拉

相关文章

  • 数仓入门基础-2-技术栈

    1.hive sql >> 五星 在大多数的工作中,主要用的语言就是sql,说难不难,只要做的多了,基本就可以...

  • 数仓入门基础-1-漫谈数仓

    百度百科的定义: 数据仓库,英文名称为Data Warehouse,可简写为DW[https://baike.ba...

  • 数仓入门基础-7-数仓规范

    数仓规范,看似是无关紧要,实则是数仓实施最重要要素,也是衡量数仓标准的重要条件,有了规范,才能尽可能避免一些坑。 ...

  • 数仓入门基础-6-数仓建模

    个人博客:https://renwula.github.io/,本系列基于互联网公司数仓,使用hive搭建数仓 ...

  • 数仓入门基础-3-数仓方法论

    三范式(3NF): 第一范式[https://baike.baidu.com/item/%E7%AC%AC%E4...

  • 数仓基础

    业务流程 三户模型 客户、账户、用户 产品模型 品牌->营销方案->新业务、促销活动 账户模型 数据仓库项目实施矩...

  • 如何编写一个react组件并使用

    关于react 首先推荐先看阮一峰的react技术栈教程 React技术栈教程其中的 React入门 | we...

  • 运维技术栈

    Linux系统运维与架构设计技术栈 Linux系统基础入门 Linux系统概述与运维环境搭建 Linux系统管理 ...

  • 堆栈基础(一)

    新手入门pwn之栈溢出系列,先学习堆栈的基础,函数调用栈这些. 运行时栈 运行时栈(runtime stack)是...

  • 数仓基础入门-10-实践篇

    有不少没涉及过数仓的同学问我一些比较基础的问题,为了更好的理解前面讲到的一些理论,写一个小小的demo体会一下~~...

网友评论

    本文标题:数仓入门基础-2-技术栈

    本文链接:https://www.haomeiwen.com/subject/jwtsuctx.html