《流式计算》专题

专题列表页

流式计算

spark 内存模型以及存储参考原文https://www.cnblogs.com/qingyunzong/p/...[作者空间]

一、前言本文将对Spark的内存管理模型进行分析，下面的分析全部是基于 Apache Spark 2.2.1 进...[作者空间]

Spark作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理...[作者空间]

这篇已经是本系列文章的第五篇了，上一篇大猪已经介绍 PV/UV 的实现方式以及程序的计算逻辑，本篇大猪继续为小伙伴...[作者空间]

在上一篇文章Spark内存模型初探(1)-Storage/Execution Memory的使用中，我们初步解析了...[作者空间]

过去，我翻译了几篇关于Spark内存模型的文章。翻译完以后，我觉得我对Spark内存模型已经够理解了，可是，纸上得...[作者空间]

在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，...[作者空间]

1、数据接收并行度调优 1、通过网络接收数据时（比如Kafka、Flume），会将数据反序列化，并存储在Spark...[作者空间]

1、概述与RDD类似，Spark Streaming也可以让开发人员手动控制，将数据流中的数据持久化到内存中。对...[作者空间]

1、Java虚拟机垃圾回收调优的背景 Spark虽然是scala开发的，但是其中也调用了很多的java api，而...[作者空间]

1、概览 Spark计算本质是基于内存的，所以Spark程序的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带...[作者空间]

由于大部分Spark计算都是在内存中完成的，所以Spark程序的瓶颈可能由集群中任意一种资源导致，如：CPU、网络...[作者空间]