美文网首页pyspark2.4.7
spark创建SparkSession

spark创建SparkSession

作者: iE简 | 来源:发表于2020-11-24 15:20 被阅读0次

    SparkSession介绍

    SparkSession 是 spark2.0 引入的概念,可以代替 SparkContext,SparkSession 内部封装了 SQLContext 和 HiveContext,使用更方便。

    • SQLContext:它是 sparkSQL 的入口点,sparkSQL 的应用必须创建一个 SQLContext 或者 HiveContext 的类实例;
    • HiveContext:它是 sparkSQL 的另一个入口点,它继承自 SQLContext,用于处理 hive 中的数据。

    使用

    官方例子:https://spark.apache.org/docs/2.4.7/api/python/pyspark.sql.html?highlight=sparksession#pyspark.sql.SparkSession

    from pyspark.sql import SparkSession
    spark = SparkSession.builder\
            .master("local")\
            .appName("cal person")\
            .config("spark.sql.execution.arrow.enabled", "true")\
            .getOrCreate()
    
    • master: 设置运行方式:local代表本机单核运行,local[4]代表在本机用4核跑,spark://master:7077是以standalone方式运行;
    • appName: 设置spark程序的名字,可以在web UI界面看到;
    • config: 附加配置项;
    • getOrCreate: 创建一个SparkSession。

    参考链接

    相关文章

      网友评论

        本文标题:spark创建SparkSession

        本文链接:https://www.haomeiwen.com/subject/fsiiiktx.html