美文网首页
spark题05

spark题05

作者: 博弈史密斯 | 来源:发表于2018-09-18 21:42 被阅读0次
1.scala中private 与 private[this] 修饰符的区别?

private[包名],private[this] 可以放在字段,方法和类上,用来限制访问权限;

  1. private[包名] 包名可以是父包名或当前包名,如果是父包名,则父包和子包都可以访问

  2. private[this] 修饰的方法或字段 只能在本类访问,如果是字段编译成 java 的时候就没有get或set方法。

2.scala中内部类和java中的内部类区别

scala的内部类和java的内部类有很大差别,java的内部类属于类,scala的内部类 属于外部类对象 。

https://blog.csdn.net/yyywyr/article/details/50193767
http://hongjiang.info/scala-type-system-inner-type-and-type-projection/

3.Spark中standalone模式特点,有哪些优点和缺点?

自带资源管理服务,不需要依赖其他的资源管理系统,适用于快速开发。

但standalone对资源的分配不如 Yarn。
而且 Yarn 可以运算其他的计算模型 比如 MapReduce。

4.FIFO调度模式的基本原理、优点和缺点?

FIFO调度策略只适合一个人

任务队列,先进先出。
优点:简单易懂零配置
缺点:耗时的长任务会导致后提交的任务一直处于等待状态,不适用于共享集群

5.FAIR调度模式的优点和缺点?

Fair Scheduler 试图为每个任务均匀分配资源,比如当前只有任务 1 在执行,那么它拥有整个集群资源,此时任务 2 被提交,那任务 1 和任务 2 将平分集群资源,以此类推。

6.CAPCACITY调度模式的优点和缺点?

CAPCACITY 适合多人同时运行任务

可以在配置文件中 为多个队列设置 队列层级关系 和 队列的资源分配比重
mapreduce.job.queuename 来为任务指定队列

优点:弹性分配、多租户租用

7.列举你了解的序列化方法,并谈谈序列化有什么好处?

Hadoop 序列化,实现 Writable 接口。

Spark 默认是 JavaSerializer 实现序列化,可选 KryoSerializer,相比 JavaSerializer 速度提升10倍。

需要注意的是,这里可配的Serializer针对的对象是Shuffle数据,以及RDD Cache等场合,而Spark Task的序列化是通过spark.closure.serializer来配置,但是目前只支持JavaSerializer

8.常见的压缩方式,你们生产集群采用了什么压缩方式,提升了多少效率?
9.简要描述Spark写数据的流程?
10.Spark中 Lineage 的基本原理
11.使用 shll 和 scala 代码实现WordCount?
12.请列举你碰到的CPU密集型的应用场景,你有做哪些优化?
13.Spark RDD 和 MR2的区别
14.Spark读取hdfs上的文件,然后count有多少行的操作,你可以说说过程吗。那这个count是在内存中,还是磁盘中计算的呢?
15.spark和Mapreduce快? 为什么快呢? 快在哪里呢?
16.spark sql又为什么比hive快呢?
17.RDD的数据结构是怎么样的?
18.RDD算子里操作一个外部map比如往里面put数据。然后算子外再遍历map。会有什么问题吗。
19.hadoop的生态呢。说说你的认识。
20.jvm怎么调优的,介绍你的Spark JVM调优经验?
21.jvm结构?堆里面几个区?
22.怎么用spark做数据清洗
23.spark怎么整合hive?
24.spark读取 数据,是几个Partition呢?
25.hbase region多大会分区,spark读取hbase数据是如何划分partition的?
26.画图,画Spark的工作模式,部署分布架构图
27.画图,画图讲解spark工作流程。以及在集群上和各个角色的对应关系。
28.java自带有哪几种线程池。
29.画图,讲讲shuffle的过程。那你怎么在编程的时候注意避免这些性能问题?
30.BlockManager怎么管理硬盘和内存的?

相关文章

  • spark题05

    1.scala中private 与 private[this] 修饰符的区别? private[包名],priva...

  • Spark 题

    Spark题spark面试总结

  • Spark面试题整理

    整理来源:《Spark面试2000题》 目录Spark section-0 基础 (3)Spark section...

  • Spark--SparkCore面试知识点总结

    整理于【Spark面试2000题】Spark core面试篇03 ,梅峰谷大数据 1.Spark使用parquet...

  • Spark 题

    spark-submit的时候如何引入外部jar包 在通过spark-submit提交任务时,可以通过添加配置参数...

  • Spark数据倾斜问题解决以及造成的spark OOM问题

    参考资料https://tech.meituan.com/2016/05/12/spark-tuning-pro....

  • 用Spark实现多种方式的排序

    方式一: package Day05 import org.apache.spark.rdd.RDD import...

  • spark题09

    1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的ur...

  • spark题06

    1.kafka收集数据的原理? 2.讲讲列式存储的 parquet文件底层格式? 3.dataset和datafr...

  • spark题07

    1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成ke...

网友评论

      本文标题:spark题05

      本文链接:https://www.haomeiwen.com/subject/xovsjftx.html