2018-08-08

作者: sparkle123 | 来源:发表于2018-08-09 10:37 被阅读0次

1、spark程序停-启,实时数据量一下子太多,如何处理
2、spark程序数据丢失,如何处理?duration是多少?

Checkpointing

一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等)。为了使这成为可能,Spark Streaming需要checkpoint足够的信息到容错存储系统中, 以使系统从故障中恢复。

Metadata checkpointing:保存流计算的定义信息到容错存储系统如HDFS中。这用来恢复应用程序中运行worker的节点的故障。元数据包括
Configuration :创建Spark Streaming应用程序的配置信息
DStream operations :定义Streaming应用程序的操作集合
Incomplete batches:操作存在队列中的未完成的批
Data checkpointing :保存生成的RDD到可靠的存储系统中,这在有状态transformation(如结合跨多个批次的数据)中是必须的。在这样一个transformation中,生成的RDD依赖于之前 批的RDD,随着时间的推移,这个依赖链的长度会持续增长。在恢复的过程中,为了避免这种无限增长。有状态的transformation的中间RDD将会定时地存储到可靠存储系统中,以截断这个依赖链。
元数据checkpoint主要是为了从driver故障中恢复数据。如果transformation操作被用到了,数据checkpoint即使在简单的操作中都是必须的。

3、kafka的consume group概念,kafka工作原理
4、spark去重
5、hbase读写流程
6、乐观锁,悲观锁,并发
7、命令行查看java进程
8、java程序崩溃,没有日志,如何排查问题

启动java时把输出重定向到文件,java xxx >> logfile 2>&1; echo $? >> logfile。另外有时java退出是coredump了,ulimit -c 把core打开

9、hbase,hive,hadoop调优
10、hadoop小文件处理,spark小文件处理
11、jvm内存
12、hbase模糊查询

惰性操作/延迟计算(Lazy Evaluation)
RDD的创建和转换方法都是惰性操作,并不会立即执行
例如,当使用SparkContext的textFile方法从HDFS中读取文件时,Spark并不会马上从硬盘中读取文件,数据只有在必要时才会被加载
Spark仅仅记录了这个RDD是怎么创建的,在它上面进行操作又会创建怎样的RDD等信息,为每个RDD维护其血统信息,在需要时创建或重建RDD
Spark对RDD的计算,在第一次使用action操作的时候才会执行
Spark通过内部记录metadata表,以表明transformations操作已经被响应了

缓存
回顾RDD的创建有两种方法,可以从存储系统中读取数据,也可以从现有RDD(集合)的转换操作而来

默认每次在RDDs上面进行action操作时,Spark都遍历这个调用者RDD的血统关系图,执行所有的转换来创建它重新计算RDDs
如果想要重复利用一个RDD(直接利用之前计算出的某个RDD结果),可以使用cache()/persist()

cache
把RDD存储在集群中执行者的内存中,实际上是将RDD物化在内存中

persist
是一个通用版的cache方法,通过传参的方法告知,缓存级别、缓存在哪:

相关文章

  • 【随笔】2018-08-08据说,今天适合分手

    今日,2018-08-08; 据说,今天适合分手; 可是, 还没有恋爱; 怎么分手?

  • 感恩日记

    感恩日记 双小宝 2018-08-08 00:03 · 字数 870 · 阅读 0 · 日记本 2018.8.7 ...

  • 夏天

    竹山不爱吃山竹 2018-08-08 19:57 · 字数 2112 · 阅读 0 · 日记本 每年的夏天爸...

  • Android自动化测试

    记录 2018-08-08 该东西只是记录,方便你我他 UiDevice 此类介绍: 打开某个APP 工具介绍 u...

  • PRESS.one,你会用了吗

    [PRESSone拓荒者] 2018-08-08 以下为原作者正文。 PRESS.one的大名很多人都知道,...

  • 手把手教你使用PRESS.one

    [PRESSone拓荒者] 2018-08-08 编者按:不到半年时间,Press.one已经两次重大升级,...

  • 艺像标画画

    周三晚上6:45 周日晚上5:30 2018-08-08晚上6:45。画了一个小雨伞。 西瓜,树叶。

  • 《致良知——责善》

    时间:2018-08-08 君子理应规劝别人向善,这就是“责善”。责善的重点在于“忠告而善道之”,尽心劝诫...

  • 2018-08-08

    2018-08-08 事件:今天听群里分享,觉察自己有份自责。 感受:内疚,自责。 想法:我应该勇敢的去做,去担当...

  • sftp远程与本地文件传输

    writed at 2018-08-08 1.名词解释 ①SSH:是一个安全外壳协议, SSH理解:传统的网络服务...

网友评论

    本文标题:2018-08-08

    本文链接:https://www.haomeiwen.com/subject/avuxbftx.html