美文网首页
数据仓库高级工程师面试(转载)

数据仓库高级工程师面试(转载)

作者: 扎西的德勒 | 来源:发表于2020-12-21 09:37 被阅读0次

    思想和方法论:

    如何建设数仓,如何构建主题域

    缓慢变化维 几种处理方式

    什么是维度建模,星型模型与雪花模型的区别

    数仓的好处

    分层的好处

    怎么做数据质量,怎么保证及时性和准确性

    什么是维度,什么是度量

    如何数据治理?

    三范式

    数据仓库vs数据中台vs数据湖

    做过实时数仓吗,讲一下

    hadoop:

    MapReduce原理,map数、reduce数的参数

    说一下 map join 与 reduce join

    hive sql怎么优化

    spark和hive的区别

    数据倾斜几种解决方式

    数据如何清洗

    说一下udf、udtf、udaf ,集成的类、接口,怎么写

    hive文件存储格式,对比

    内外表区别

    hive执行的job数是怎么确定的

    Spark:

    join 实现有几种呢,源码有研究过吗?底层是怎么实现的

    shuffle形式有几种?都做哪些优化

    是通过什么管理shuffle中的内存,磁盘的

    讲讲spark内存模型?说说你了解这些,对实际的工作有什么帮助?

    rdd有哪些特性?

    宽依赖,窄依赖都是什么?有什么不同?除了大家都认为的不同点以外,还有哪些不同?

    spark为什么比hive快

    讲讲sparksql优化

    讲讲RDD, DAG, Stage

    说说groupByKey, reduceByKey

    spark是怎么读取文件的?

    有没有遇到过spark读取文件,有一些task空跑的现象?

    窗口函数中几个rank函数有啥不同

    parquet文件和orc文件有啥不同

    shell:

    字符串替换(sed)

    本文逗号分隔输出第二列(awk)

           注:新浪也考过 awk输出并求和

    python:

    数组和列表的区别,什么是字典

    什么是模块,有哪些内置模块

    全局变量与局部变量

    算法:

    几种排序算法,说一下冒泡排序

    堆vs栈

    sql题:

    手写7日留存

    手写连续3日登陆

    1000亿userid如何最高性能求uv

    业务:

    讲一个最复杂的业务场景

    数据赋能,你如何体现数仓职位的价值

    你能为我们带来什么?

    转自:字节跳动-数据仓库高级工程师面试

    相关文章

      网友评论

          本文标题:数据仓库高级工程师面试(转载)

          本文链接:https://www.haomeiwen.com/subject/bepmahtx.html