前言 在使用Spark-shell做一些测试时候会产生大量无用的INFO级别的日志,因此想把它们给禁用掉。具体方法...[作者空间]
前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题,...[作者空间]
前言 如果你程序中的聚合速度较慢,请先查看 Spark Stragglers/任务执行缓慢部分。 主要症状 在执行...[作者空间]
什么是RDD RDD(Resilient Distributed Datasets),弹性分布式数据集,是Spar...[作者空间]
前言 在我们提交spark程序时,应该如何为Spark集群配置--num-executors, - execut...[作者空间]
什么是Checkpointing Checkpointing可以将RDD从其依赖关系中抽出来,保存到可靠的存储系统...[作者空间]
前言 学习Spark源代码的过程中遇到了Typed transformations和Untyped transfo...[作者空间]
Spark中的多任务处理 Spark的一个非常常见的用例是并行运行许多作业。 构建作业DAG后,Spark将这些任...[作者空间]
虽然在Pyspark中,驱动程序是一个python进程,但是它创建的SparkSession对象以及其他DataF...[作者空间]
关于SparkSession 任何Spark程序的第一步都是先创建SparkSession。在Spark-Shel...[作者空间]
Spark Application’s Configuration 提示:有关如何配置Spark和用户程序的详细信...[作者空间]
Spark应用程序剖析 每个Spark应用程序都从创建SparkContext开始。 若没有SparkContex...[作者空间]
Apache Spark Apache Spark是一个开源的分布式通用计算框架,具有(大部分)内存数据处理引擎,...[作者空间]