背景 最近在做实时推荐项目,上线运行几天后发现部分服务器不可用,经过对日志分析发现一个关于Netty的堆外内存错误...[作者空间]
Kafka配合Spark Streaming是大数据领域常见的黄金搭档之一,主要是用于数据实时入库或分析。为了应对...[作者空间]
一、背景 这个方案的实现思路,跟大家解析一下:其实关键之处在于,将发生数据倾斜的key,单独拉出来,放到一个RDD...[作者空间]
在使用reduceByKey,groupByKey算子时,都是针对PairRDD进行操作,那么,我们就可以Pair...[作者空间]
因为首次启动JOB的时候,由于冷启动会造成内存使用太大,为了防止这种情况出现,限制首次处理的数据量 for exa...[作者空间]
前面文章介绍了不少有关Spark Streaming的offset的管理以及如何优雅的关闭Spark Stream...[作者空间]
之前在Hive on Spark跑TPCx-BB测试时,100g的数据量要跑十几个小时,一看CPU和内存的监控,发...[作者空间]
原文链接:『 Spark 』5. 这些年,你不能错过的 spark 学习资源 写在前面 本系列是综合了自己在学习s...[作者空间]