spark-sql源码解读

作者: Wping_1c08 | 来源:发表于2020-03-29 00:06 被阅读0次

spark-sql源码解读
spark之旅-4.spark-sql
AFN 3.0学习总结（最后的总结转载）
spring源码解读网上知识摘要
文章目录
Element分析（组件篇）——TableHeader
JDK源码-Object
【Java源码计划】LongAdder<rt.jar_ja
AFNetworking 3.0 源码解读（五）之 AFURLS
java多线程

一、开发一个spark应用

//初始化sparksession
    val spark = SparkSession.builder.appName("SparkSQL Test").master("local[4]").getOrCreate() 
    //transform操作,生成dataframe,可继续执行dataframe相关dsl api,
    val sqlDf = spark.sql("select count(*) from table")
    //action操作,spark-core开始执行
    sqlDf.show(false)

二、初始化sparksession-sessionState构造过程

//1:sparksession懒加载sessionstate
        lazy val sessionState: SessionState = {
            parentSessionState
              .map(_.clone(this))
              .getOrElse {
                val state = SparkSession.instantiateSessionState(
                  SparkSession.sessionStateClassName(sparkContext.conf),
                  self)
                initialSessionOptions.foreach { case (k, v) => state.conf.setConfString(k, v) }
                state
              }
          }
//2:实例化sessionstate
    /**
       * Helper method to create an instance of `SessionState` based on `className` from conf.
       * The result is either `SessionState` or a Hive based `SessionState`.
       */
      private def instantiateSessionState(
          className: String,
          sparkSession: SparkSession): SessionState = {
        try {
          // invoke `new [Hive]SessionStateBuilder(SparkSession, Option[SessionState])`
          val clazz = Utils.classForName(className)
          val ctor = clazz.getConstructors.head
          //默认:BaseSessionStateBuilder, hive:HiveSessionStateBuilder
          ctor.newInstance(sparkSession, None).asInstanceOf[BaseSessionStateBuilder].build()
            ...
//3: 构建SessionState,初始化catalog、sqlparser、analyzer、optimzizer,内置函数以及udf函数等等
            def build(): SessionState = {
              new SessionState(
                session.sharedState,
                conf,
                experimentalMethods,
                functionRegistry,
                udfRegistration,
                () => catalog,
                sqlParser,
                () => analyzer,
                () => optimizer,
                planner,
                streamingQueryManager,
                listenerManager,
                () => resourceLoader,
                createQueryExecution,
                createClone)
            }

注:QueryExecution、SessionState、BaseSessionStateBuilder之间的关系:
(1)QueryExecution的analyzed、optimizedPlan是懒加载的,被调用时实际调用的是SessionState中的analyzer、optimizer的相关方法做解析和优化
(2)SessionState的catalog、analyzer、optimizer、resourceLoader也是懒加载的,被调用时实际调用的是在BaseSessionStateBuilder初始化SessionState的时候生成的匿名函数
三、transform-生成dataframe-resolved logicalPlan

/*
1: paserplan生成unresolved logicalPlan, ofRows方法中调用QueryExecution.assertAnalyzed(),
        其实是sparkSession.sessionState.analyzer.executeAndCheck(logical),
        再使用定义的各种解析规则,resolving unresolved attributes and relations,生成resolved logicalPlan,
        最终new Dataset[Row](sparkSession, qe, RowEncoder(qe.analyzed.schema))生成dataframe*/
def sql(sqlText: String): DataFrame = {Dataset.ofRows(self, sessionState.sqlParser.parsePlan(sqlText))}
//2: 使用访问者模式,astBuilder遍历antlr sql语法树,解析成catalyst的ast语法树,生成unresolved的逻辑计划
  override def parsePlan(sqlText: String): LogicalPlan = parse(sqlText) { parser =>
    astBuilder.visitSingleStatement(parser.singleStatement()) match {
      case plan: LogicalPlan => plan
      case _ =>
        val position = Origin(None, None)
        throw new ParseException(Option(sqlText), "Unsupported SQL statement", position, position)
    }
  }
 //代码3:将sql命令传给antlr,使用SqlBase.g4生成的词汇解析器SqlBaseLexer和语法解析器SqlBaseParser,对词和语法校验
  protected def parse[T](command: String)(toResult: SqlBaseParser => T): T = {
    logDebug(s"Parsing command: $command")

    val lexer = new SqlBaseLexer(new UpperCaseCharStream(CharStreams.fromString(command)))
    lexer.removeErrorListeners()
    lexer.addErrorListener(ParseErrorListener)
    lexer.legacy_setops_precedence_enbled = SQLConf.get.setOpsPrecedenceEnforced

    val tokenStream = new CommonTokenStream(lexer)
    val parser = new SqlBaseParser(tokenStream)
    parser.addParseListener(PostProcessor)
    parser.removeErrorListeners()
    parser.addErrorListener(ParseErrorListener)
    parser.legacy_setops_precedence_enbled = SQLConf.get.setOpsPrecedenceEnforced

    try {
      try {
        // first, try parsing with potentially faster SLL mode
        parser.getInterpreter.setPredictionMode(PredictionMode.SLL)
        toResult(parser)
        ...

四、action-触发执行-优化逻辑计划,生成物理计划,转为rdd提交给sparkContex

//1:拉取20行数据到driver端,调用take(),最终调用head()
        def show(): Unit = show(20)
            
        def head(n: Int): Array[T] = withAction("head", limit(n).queryExecution)(collectFromPlan)
//2:Wrap一个action,监控查询执行过程和时间花费,执行用户注册的回调函数
        private def withAction[U](name: String, qe: QueryExecution)(action: SparkPlan => U) = {
            try {
                /*触发optimizer优化器采用一系列优化规则(eg:谓词下推)对resolved logicalPlan进行优化,
                /sparkplanner选择出最优策略(eg:广播表)将optimizedPlan转化为sparkplan,
                    sparkplan应用一系列规则,转化为可预备执行的物理计划
                    */
              qe.executedPlan.foreach { plan =>
                plan.resetMetrics()
              }
              val start = System.nanoTime()
              val result = SQLExecution.withNewExecutionId(sparkSession, qe) {
                 //调用collectFromPlan,交给spark-core,执行物理计划,转为rdd操作
                action(qe.executedPlan)
              }
              val end = System.nanoTime()
              sparkSession.listenerManager.onSuccess(name, qe, end - start)
              result
            } catch {
              case e: Exception =>
                sparkSession.listenerManager.onFailure(name, qe, e)
                throw e
            }
          }
//3:QueryExecution中从优化到生成可预备执行的物理计划工作流
          lazy val optimizedPlan: LogicalPlan = sparkSession.sessionState.optimizer.execute(withCachedData)

          lazy val sparkPlan: SparkPlan = {
            SparkSession.setActiveSession(sparkSession)
            // TODO: We use next(), i.e. take the first plan returned by the planner, here for now,
            //       but we will implement to choose the best plan.
            planner.plan(ReturnAnswer(optimizedPlan)).next()
          }

          // executedPlan should not be used to initialize any SparkPlan. It should be
          // only used for execution.
          lazy val executedPlan: SparkPlan = prepareForExecution(sparkPlan)
              
          protected def prepareForExecution(plan: SparkPlan): SparkPlan = {
              preparations.foldLeft(plan) { case (sp, rule) => rule.apply(sp) }
            }

            /** A sequence of rules that will be applied in order to the physical plan before execution. */
            protected def preparations: Seq[Rule[SparkPlan]] = Seq(
              python.ExtractPythonUDFs,
              PlanSubqueries(sparkSession),
              EnsureRequirements(sparkSession.sessionState.conf),
              CollapseCodegenStages(sparkSession.sessionState.conf),
              ReuseExchange(sparkSession.sessionState.conf),
              ReuseSubquery(sparkSession.sessionState.conf))
//4:执行自定义的回调函数函数,该函数底层最终执行sparkplan的do把物理计划转化为rdd操作
            /**
               * Collect all elements from a spark plan.
               */
              private def collectFromPlan(plan: SparkPlan): Array[T] = {
                // This projection writes output to a `InternalRow`, which means applying this projection is not
                // thread-safe. Here we create the projection inside this method to make `Dataset` thread-safe.
                val objProj = GenerateSafeProjection.generate(deserializer :: Nil)
                plan.executeCollect().map { row =>
                  // The row returned by SafeProjection is `SpecificInternalRow`, which ignore the data type
                  // parameter of its `get` method, so it's safe to use null here.
                  objProj(row).get(0, null).asInstanceOf[T]
                }
              }
//5:将sparkplan转为rdd,交给sparkContext提交job
              /**
                 * Runs this query returning the result as an array.
                 */
                def executeCollect(): Array[InternalRow] = {
                    //getByteArrayRdd调用execute(),再调用doExecute()方法,将sparkplan转为RDD
                  val byteArrayRdd = getByteArrayRdd()

                  val results = ArrayBuffer[InternalRow]()
                      //byteArrayRdd.collect()是rdd的action算子,会运行sc.runJob()提交job给spark集群
                  byteArrayRdd.collect().foreach { countAndBytes =>
                    decodeUnsafeRows(countAndBytes._2).foreach(results.+=)
                  }
                  results.toArray
                }

spark-sql源码解读
一、开发一个spark应用二、初始化sparksession-sessionState构造过程注:QueryE...
spark之旅-4.spark-sql
Spark-SQL Spark-SQL，思维导图
AFN 3.0学习总结（最后的总结转载）
AFNetworking 3.0 源码解读总结（干货）（上） AFNetworking 3.0 源码解读总结（...
spring源码解读网上知识摘要
spring 启动源码 spring 启动流程源码解读spring 启动注解加载类源码解读springxml 文件...
文章目录
Go 源码解读篇《Go源码解读篇》之常见数据结构(list) 《Go源码解读篇》之 Error 工作中知识总结 ...
Element分析（组件篇）——TableHeader
说明 table-header是表头组件，较为复杂，直接看源码解读。源码解读
JDK源码-Object
简介源码解读
【Java源码计划】LongAdder<rt.jar_ja
LongAdder 源码解读源码解读部分按照我得理解翻译和解读注解并添加相关的部分代码解读保持一个或者多个变量...
AFNetworking 3.0 源码解读（五）之 AFURLS
本篇是AFNetworking 3.0 源码解读的第五篇了。 AFNetworking 3.0 源码解读（一）之 ...
java多线程
java多线程线程类源码解读（2）-线程状态及常用方法线程类源码解读（3）-线程中断逐行分析AQS源码（1）...

spark-sql源码解读

相关文章

spark-sql源码解读

spark之旅-4.spark-sql

AFN 3.0学习总结（最后的总结转载）

spring源码解读网上知识摘要

文章目录

Element分析（组件篇）——TableHeader

JDK源码-Object

【Java源码计划】LongAdder<rt.jar_ja

AFNetworking 3.0 源码解读（五）之 AFURLS

java多线程

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读