《Spark优化与实践》专题

专题列表页

Spark 及其生态的一些优化与实践

Spark withColumn 陷阱
0
2020-04-27

withColumn / withColumnRenamed 是 spark 中常用的 API，可以用于添加新字...[作者空间]

由于小文件产生的spark job performance问题
0
2020-03-10

上周在调优一个job ,发现spark history 出现一个重复出现的job , 这个job 写着Listi...[作者空间]

Delta Presto Integration & Manif
0
2019-12-17

Delta 0.5 在上周发布，增加了一些新特性，这篇文章主要讲解Presto Integration 和 GEN...[作者空间]

Delta Lake 平台化实践（离线篇)
0
2019-12-15

Delta Lake 是什么？简单的说就是为大数据场景添加了事务功能，并且支持了 update/delete/me...[作者空间]

Spark task的输入太大如何分割？
0
2020-03-25

上周调优一个job 的时候发现一个join 意外的耗时间，如图上一个join的shuffle操作就耗时1.2h. ...[作者空间]

spark 小文件合并优化实践
0
2019-10-24

随着 Delta Lake 的开源以及 spark3 preview发布，很多 spark/大数据的痛点都看到了...[作者空间]

spark2.3 跑不過去的join 排查
59
2019-08-02

上週跑spark job 遇到這樣一個語句 select cc_base_part1.*,cc_base_par...[作者空间]

Spark 数据读取冷启动优化分析
3
2019-05-28

有时候会发现即使是读取少量的数据，启动延时可能也非常大，针对该现象进行分析，并提供一些解决思路。背景 Spark...[作者空间]

使用 jvm-profiler 分析 spark 内存使用
5
2018-10-27

背景在生产环境中，为了提高任务提交的响应速度，我们研发了类似 Spark Jobserver 的服务，各种类型的...[作者空间]

使用 Prometheus 和 Grafana 监控 Spark
22
2018-09-13

背景每个开发者都想了解自己任务运行时的状态，便于调优及排错，Spark 提供的 webui 已经提供了很多信息，...[作者空间]

使用 aspectj 对 spark sql 进行拦截
9
2018-09-04

背景开源产品要想用的得心应手免不了要根据公司的业务/场景对其做一些改造，如果直接在源码的层面对其修改，当下可能用...[作者空间]

yarn cgroup 资源隔离(cpu篇)
32
2018-08-02

环境配置背景 yarn container 默认不支持对cpu进行资源隔离，一些计算密集型任务甚至可能占满NM节...[作者空间]

提高spark任务稳定性1 - Blacklist 机制
35
2018-04-25

场景一个 spark 应用的产生过程：获取需求 -> 编写spark代码 -> 测试通过 -> 扔上平台调度。...[作者空间]

PySpark pandas udf
98
2018-04-13

配置所有运行节点安装 pyarrow ，需要 >= 0.8 为什么会有 pandas UDF 在过去的几年中，p...[作者空间]

在spark dataFrame 中使用 pandas data
114
2018-04-04

背景 pandas dataFrame 无法支持大量数据的计算，可以尝试 spark df 来解决这个问题。一....[作者空间]

spark range join 优化
27
2018-04-03

背景一张ip表，一张ip地理信息表，地理信息表每条数据包含了ip地址的起点和终点以及一些地理信息, 需要用 i...[作者空间]

pypy on PySpark
52
2017-11-15

什么是pypy 简单的说，pypy 基于jit静态编译，相比cpython 动态解释执行，因此执行速度上会更高效，...[作者空间]

网络原因导致 spark task 卡住
360
2017-05-10

主机名映射出错背景： Yarn集群新加入了一批Spark机器后发现运行Spark任务时，一些task会无限卡住且...[作者空间]

Spark报错 driver did not authorize
235
2016-08-22

启动Spark Speculative后，有时候运行任务会发现如下提示：启动 Speculative 后，运行较...[作者空间]

Spark排错与优化
3051
2016-08-22

一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存，当集群中运行的任务...[作者空间]

栏目导航

延伸阅读

栏目导航

爱情美文推荐

热点爱情美文

最新爱情美文