美文网首页
spark题06

spark题06

作者: 博弈史密斯 | 来源:发表于2018-09-18 21:41 被阅读0次
1.kafka收集数据的原理?
2.讲讲列式存储的 parquet文件底层格式?
3.dataset和dataframe?
4 scala中trait特征和用法?
5.redis和memcache的区别?
6.列举Spark中常见的端口,分别有什么功能?
8.Spark官网中,你常用哪几个模块?
11.yarn的原理?
14.看过源码? 你熟悉哪几个部分的源码?
15.集群上 nodemanager和ResourceManager的数量关系?
16.Spark如何处理结构化数据,Spark如何处理非结构话数据?
17.Spark性能优化主要有哪些手段?
18.简要描述Spark分布式集群搭建的步骤?
19.对于Spark你觉得他对于现有大数据的现状的优势和劣势在哪里?
20.对于算法是否进行过自主的研究设计?
21.简要描述你了解的一些数据挖掘算法与内容
22. 什么时候join不发生shuffle?
23.spark shuffle的具体过程,你知道几种shuffle方式
24.spark 如何防止内存溢出 ?
25.简述hadoop实现join的及各种方式?
26 rdd转为dataFrame两种方式?
27.列举你熟悉的内存系统,各自的优缺点?
28.Spark 中Master 实现HA有哪些方式 ?
29 函数式编程特点?
30.Sort-based shuffle的缺陷?

相关文章

  • spark题06

    1.kafka收集数据的原理? 2.讲讲列式存储的 parquet文件底层格式? 3.dataset和datafr...

  • Spark 题

    Spark题spark面试总结

  • Spark面试题整理

    整理来源:《Spark面试2000题》 目录Spark section-0 基础 (3)Spark section...

  • Spark--SparkCore面试知识点总结

    整理于【Spark面试2000题】Spark core面试篇03 ,梅峰谷大数据 1.Spark使用parquet...

  • Spark 题

    spark-submit的时候如何引入外部jar包 在通过spark-submit提交任务时,可以通过添加配置参数...

  • Spark On YARN内存分配

    原文地址: http://blog.javachen.com/2015/06/09/memory-in-Spark...

  • SPARK在事件日志扫描中使用Sigma规则

    来源:https://www.nextron-systems.com/2018/06/28/spark-appli...

  • spark题09

    1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的ur...

  • spark题05

    1.scala中private 与 private[this] 修饰符的区别? private[包名],priva...

  • spark题07

    1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成ke...

网友评论

      本文标题:spark题06

      本文链接:https://www.haomeiwen.com/subject/ndbsjftx.html