参考项目: https://github.com/LiShuMing/spark-demos 疑惑一、Spark提...[作者空间]
一、准备环境: 创建Kafka Topic和HBase表 1. 在kerberos环境下创建Kafka Topic...[作者空间]
SparkStreaming适合场景 Storm 流式计算(扶梯)优点: 数据延迟度很低,Storm的事务机制要比...[作者空间]
可用性调优 SPARK-13793 之前的PipedRDD实现容错性较差,只要发生fetch错误时,整个job就会...[作者空间]
准备 Java honest profiler工具: https://github.com/jvm-profili...[作者空间]
网上有很多文章,发现跟当前的版本有很多冲突,看起来一知半解的;当前讨论的版本为spark2.1.0,之前的版本不再...[作者空间]
编译 carbondata1.2已经支持hive+presto,carbon生态圈基本健全。 基于git chec...[作者空间]
Spark Streaming容错机制保障 参考https://databricks.com/blog/2015/...[作者空间]
SparkStreaming流程梳理 根据SparkStreaming的最初设计文档(https://docs.g...[作者空间]
Action/Transformation 所谓的Action与Transformation的区别: Action...[作者空间]
MapWithStateDStream MapWithStateDStream为mapWithState算子的结果...[作者空间]
启动Spark任务时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 会看到...[作者空间]
参考2(已经过时) 给出来一个方法,在scala中sys.ShutdownHookThread可以捕获SIGTER...[作者空间]
配置zookeeper,启动多个HiveServer 配置HA Zookeeper信息如下: 首先,在host1上...[作者空间]
现在网上很难找到一篇有关HiveServer2 HA源码分析的文章,晚上有时间又耐不住从源码层面分析了下HiveS...[作者空间]
Kafka 单机环境搭建 从官网下载kafka_2.11-0.9.0.1和kafka_2.11-0.10.2.0两...[作者空间]
一、问题 首先,团队里不同的小组使用同一套hadoop集群,有做sqoop任务的,有做flink的,也有跑spar...[作者空间]
背景 接触SparkSQL不久,查找了些别人的资料,感觉对整个Spark HiveThriftServer2流程讲...[作者空间]
YARN模式下启动流程 1.YarnschedulerBackend启动入口 YARN的启动是在SparkCont...[作者空间]
本文基于spark源码2.11 1. 概要 spark中网络通信无处不在,例如 driver和master的通信,...[作者空间]