《spark由浅入深》专题

专题列表页

spark学习资料汇总

背景最近在做实时推荐项目，上线运行几天后发现部分服务器不可用，经过对日志分析发现一个关于Netty的堆外内存错误...[作者空间]

Kafka配合Spark Streaming是大数据领域常见的黄金搭档之一，主要是用于数据实时入库或分析。为了应对...[作者空间]

一、背景这个方案的实现思路，跟大家解析一下：其实关键之处在于，将发生数据倾斜的key，单独拉出来，放到一个RDD...[作者空间]

在使用reduceByKey，groupByKey算子时，都是针对PairRDD进行操作，那么，我们就可以Pair...[作者空间]

因为首次启动JOB的时候，由于冷启动会造成内存使用太大，为了防止这种情况出现，限制首次处理的数据量 for exa...[作者空间]

前面文章介绍了不少有关Spark Streaming的offset的管理以及如何优雅的关闭Spark Stream...[作者空间]

之前在Hive on Spark跑TPCx-BB测试时，100g的数据量要跑十几个小时，一看CPU和内存的监控，发...[作者空间]

原文链接：『 Spark 』5. 这些年，你不能错过的 spark 学习资源写在前面本系列是综合了自己在学习s...[作者空间]