什么是Ray 之前花了大概两到三天把Ray相关的论文,官网文档看了一遍,同时特意去找了一些中文资料看Ray当前在国...[作者空间]
Delta 0.5 在上周发布,增加了一些新特性,这篇文章主要讲解Presto Integration 和 GEN...[作者空间]
Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/me...[作者空间]
本场视频链接:https://developer.aliyun.com/live/1548?spm=a2c6h.1...[作者空间]
数据本地性是 Spark 等计算引擎从计算性能方面去考量的一个重要指标,对于某个数据分片的运算,Spark 在调度...[作者空间]
预聚合是高性能分析中的常用技术,例如,每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合,被降低到10...[作者空间]
什么是 ConfigMap 顾名思义,用来存配置的Map,可以存单个配置或者配置文件,在 POD 中我们可以通过环...[作者空间]
前言 Spark YarnShuffleService是作为Hadoop Yarn模块中NodeManager的辅...[作者空间]
漫谈Spark内存管理(一)有提到问题:“Spark中用到内存的地方有哪些?存储内存主要消耗在哪些地方?执行内存主...[作者空间]
原文 前段时间工作中踩到SPARK-21444的坑,这里做个记录。 1 场景描述 我们的一个spark app在正...[作者空间]
Delta Lake is an open-source storage layer that brings AC...[作者空间]
目录 流量控制简介 Spark Streaming流控基本设置 Spark Streaming反压机制的具体实现动...[作者空间]
问题描述 我们最近有个项目,需要实时消费订单成单的消息,提炼完数据后把结果写入HDFS,因此checkpointC...[作者空间]
场景 spark streaming接受到数据后,在spark中进行存储,之后将kafka确认信息存储到zooke...[作者空间]
Tungsten简介 tungsten-sort这个名字作为一种排序方法,听起来有点怪异。下面简单介绍一下Tung...[作者空间]
shuffle write入口 先回忆一下基础知识: Spark作业执行的单元从高到低为job→stage→tas...[作者空间]
注:本文转自我的个人博客(Spark - 利用WeakReference来清理对象)。 最近在stackoverf...[作者空间]
一、问题背景 当前Spark Thrift Server在运行SQL时,Client不会输出任何日志,只有任务运行...[作者空间]
注:本文转自我的个人博客 SQL解析框架 - Calcite。 最通用的SQL解析框架 - Calcite 最近在...[作者空间]
在利用Spark开发各类计算任务时,Executor内存的配置永远是重中之重,因此了解Spark的内存管理机制是非...[作者空间]