Spark SQL

作者: 乔一波一 | 来源:发表于2019-03-21 14:04 被阅读0次

Spark on hive (Spark SQL):hive只是作为了存储的角色;Spark Sql作为计算的角色

Hive on Spark (Shark):Hive承担了部分计算(解析Sql,优化SQL)和存储;Spark作为执行引擎角色;

Spark 底层操作的是DataFrame;类似于Spark core中底层操作的是RDD;也是分布式的数据容器;Spark2.3中出现了DataSet,DataSet[Row]就是DataFrame,也就是DataFrame是DataSet的一种类型;

SparkSQL中查询大量数据,优化Sql采用谓词下推的方式;

sparksql 谓词下推

相关文章

网友评论

      本文标题:Spark SQL

      本文链接:https://www.haomeiwen.com/subject/bynbmqtx.html