Learning Spark [3] - Catalyst Op

作者: 屹然1ran | 来源:发表于2021-01-15 14:22 被阅读0次

Learning Spark [3] - Catalyst Op
Spark Sql 运行原理
Adaptive Execution 让 Spark SQL 更
Spark Catalyst Optimizer
2022-08-21
Learning Spark [4] - Spark SQL
1、Catalyst源码解读之SqlParser
Spark SQL:4.对Spark SQL的理解
Spark 中的Tungsten
Spark高级数据分析（第2版）- 2018.pdf

Catalyst Optimizers是Spark SQL的一个重要功能，他会将数据查询转换为执行计划。他分为四个步骤：

分析
逻辑优化
物理规划
生成代码

例子：

M&Ms例子
两段不同语言代码的执行代码是相同的。所以无论是你使用了什么语言，你的查询和计算会经过相同处理。

# In Python 
count_mnm_df = (mnm_df  
  .select("State", "Color", "Count")   
  .groupBy("State", "Color")   
  .agg(count("Count")   
  .alias("Total"))   
  .orderBy("Total", ascending=False))

-- In SQL 
SELECT State, Color, Count, sum(Count) AS Total 
FROM MNM_TABLE_NAME 
GROUP BY State, Color, Count 
ORDER BY Total DESC

使用count_mnm_df.explain(True)可以查看具体Python Code的详细步骤。（在以后关于Debugging时，我们会更深入的讨论这部分）

count_mnm_df.explain(True)
== Parsed Logical Plan == 
'Sort ['Total DESC NULLS LAST], true 
+- Aggregate [State#10, Color#11], [State#10, Color#11, count(Count#12) AS...]   
  +- Project [State#10, Color#11, Count#12]      
    +- Relation[State#10,Color#11,Count#12] csv
== Analyzed Logical Plan == 
State: string, Color: string, Total: bigint 
Sort [Total#24L DESC NULLS LAST], true 
  +- Aggregate [State#10, Color#11], [State#10, Color#11, count(Count#12) AS...]   
    +- Project [State#10, Color#11, Count#12]      
      +- Relation[State#10,Color#11,Count#12] csv
== Optimized Logical Plan == 
Sort [Total#24L DESC NULLS LAST], true 
  +- Aggregate [State#10, Color#11], [State#10, Color#11, count(Count#12) AS...]   
    +- Relation[State#10,Color#11,Count#12] csv
== Physical Plan == 
*(3) Sort [Total#24L DESC NULLS LAST], true, 0 
  +- Exchange rangepartitioning(Total#24L DESC NULLS LAST, 200)   
    +- *(2) HashAggregate(keys=[State#10, Color#11], functions=[count(Count#12)], output=[State#10, Color#11, Total#24L])      
      +- Exchange hashpartitioning(State#10, Color#11, 200)         
        +- *(1) HashAggregate(keys=[State#10, Color#11], functions=[partial_count(Count#12)], output=[State#10, Color#11, count#29L])            
          +- *(1) FileScan csv [State#10,Color#11,Count#12] Batched: false, Format: CSV, Location: InMemoryFileIndex[file:/Users/jules/gits/LearningSpark2.0/chapter2/py/src/... dataset.csv], PartitionFilters: [], PushedFilters: [], ReadSchema: struct<State:string,Color:string,Count:int>

四个步骤

阶段1：Analysis(分析)

在进行SQL或者Dataframe查询时，Spark SQL生成抽象Abstract Syntax Tree(逻辑树)。在这个阶段，任何行名和列名都会被抹除，取而代之的是一个内部Catalog(日志)，里面将会记录所有的列名、行名、数据类型、函数、列表、数据库等等。在所有这些属性都被抹除后，查询就会到下一个阶段。

阶段2：Logical Optimization(逻辑优化)

在上图中可以看到，Logical Optimization分为两个小阶段。首先根据标准的Rule Based Optimization，Catalyst Optimizer会构建一个包含了多个plan的集，然后Cost-based optimizer(CBO)会分配每个plan的消耗。这些plan会被布置呈operator trees。