《Spark》专题

专题列表页

学习记录

SparkSQL是ApacheSpark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多...[作者空间]

java -Xms -Xmx -XX:PermSize -XX:MaxPermSize 在做java开发时尤其是...[作者空间]

1.目标：尽可能在有限资源的情况下，利用尽量少的资源来达到更高效的效果。今天就给大家分享一个在DDT首页概览实时性...[作者空间]

1、Task数量，至少设置成与Spark application的总cpu core数量相同（最理想情况，比如总共...[作者空间]

广播变量的读取比较复杂，首先读取端会尝试从本地BlockManager直接读取未切分的完整数据；如果不存在会尝试从...[作者空间]

背景在默认情况下，Spark Streaming 通过 receivers (或者是 Direct 方式) 以生...[作者空间]

我们可以发现，Spark 应用程序在提交执行后，控制台会打印很多日志信息，这些信息看起来是杂乱无章的，但是却在一定...[作者空间]

在Spark应用程序中设置日志输出级别我们通常会使用IDE（例如Intellij IDEA）开发Spark应用，...[作者空间]

先看最终效果：实现步骤(配置Spark)： 1、配置Spark-env.sh SPARK_HISTORY_OPT...[作者空间]

在多个Job间公平的分发资源 FIFO调度执行模式 Spark是线程安全的，可以同时安全的执行多个Job， Spa...[作者空间]

Spark程序之间调度资源分配策略分为两种情况：所谓分配，简单来说就是Spark集群管理器为每个Spark程序，...[作者空间]

程序提交或者spark-shell 执行后相关配置的加载过程为： 1、首先执行环境配置脚本spark-evn.c...[作者空间]

背景 MapReduce不能满足大数据快速实时adhoc查询计算的性能要求，Facebook2012年开发，201...[作者空间]