withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字...[作者空间]
上周在调优一个job ,发现spark history 出现一个重复出现的job , 这个job 写着Listi...[作者空间]
Delta 0.5 在上周发布,增加了一些新特性,这篇文章主要讲解Presto Integration 和 GEN...[作者空间]
Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/me...[作者空间]
上周调优一个job 的时候发现一个join 意外的耗时间,如图上一个join的shuffle操作就耗时1.2h. ...[作者空间]
随着 Delta Lake 的开源以及 spark3 preview发布,很多 spark/大数据 的痛点都看到了...[作者空间]
上週跑spark job 遇到 這樣一個語句 select cc_base_part1.*,cc_base_par...[作者空间]
有时候会发现即使是读取少量的数据,启动延时可能也非常大,针对该现象进行分析,并提供一些解决思路。 背景 Spark...[作者空间]
背景 在生产环境中,为了提高任务提交的响应速度,我们研发了类似 Spark Jobserver 的服务,各种类型的...[作者空间]
背景 每个开发者都想了解自己任务运行时的状态,便于调优及排错,Spark 提供的 webui 已经提供了很多信息,...[作者空间]
背景 开源产品要想用的得心应手免不了要根据公司的业务/场景对其做一些改造,如果直接在源码的层面对其修改,当下可能用...[作者空间]
环境配置 背景 yarn container 默认不支持对cpu进行资源隔离,一些计算密集型任务甚至可能占满NM节...[作者空间]
场景 一个 spark 应用的产生过程: 获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。...[作者空间]
配置 所有运行节点安装 pyarrow ,需要 >= 0.8 为什么会有 pandas UDF 在过去的几年中,p...[作者空间]
背景 pandas dataFrame 无法支持大量数据的计算,可以尝试 spark df 来解决这个问题。 一....[作者空间]
背景 一张ip表,一张ip地理信息表,地理信息表每条数据包含了ip地址的起点和终点以及一些地理信息, 需要用 i...[作者空间]
什么是pypy 简单的说,pypy 基于jit静态编译,相比cpython 动态解释执行,因此执行速度上会更高效,...[作者空间]
主机名映射出错 背景: Yarn集群新加入了一批Spark机器后发现运行Spark任务时,一些task会无限卡住且...[作者空间]
启动Spark Speculative后,有时候运行任务会发现如下提示: 启动 Speculative 后,运行较...[作者空间]
一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务...[作者空间]