Spark on hive (Spark SQL):hive只是作为了存储的角色;Spark Sql作为计算的角色
Hive on Spark (Shark):Hive承担了部分计算(解析Sql,优化SQL)和存储;Spark作为执行引擎角色;
Spark 底层操作的是DataFrame;类似于Spark core中底层操作的是RDD;也是分布式的数据容器;Spark2.3中出现了DataSet,DataSet[Row]就是DataFrame,也就是DataFrame是DataSet的一种类型;
SparkSQL中查询大量数据,优化Sql采用谓词下推的方式;
sparksql 谓词下推
网友评论