SparkSession介绍
SparkSession 是 spark2.0 引入的概念,可以代替 SparkContext,SparkSession 内部封装了 SQLContext 和 HiveContext,使用更方便。
- SQLContext:它是 sparkSQL 的入口点,sparkSQL 的应用必须创建一个 SQLContext 或者 HiveContext 的类实例;
- HiveContext:它是 sparkSQL 的另一个入口点,它继承自 SQLContext,用于处理 hive 中的数据。
使用
from pyspark.sql import SparkSession
spark = SparkSession.builder\
.master("local")\
.appName("cal person")\
.config("spark.sql.execution.arrow.enabled", "true")\
.getOrCreate()
- master: 设置运行方式:local代表本机单核运行,local[4]代表在本机用4核跑,spark://master:7077是以standalone方式运行;
- appName: 设置spark程序的名字,可以在web UI界面看到;
- config: 附加配置项;
- getOrCreate: 创建一个SparkSession。
网友评论