Spark SQL（一）入门介绍

作者: Sx_Ren | 来源:发表于2018-03-14 10:21 被阅读0次

Spark SQL（一）入门介绍
185、Spark 2.0之SparkSession、Dataf
Spark从入门到精通59:SparkSession、Dataf
Java Spark 简单示例（三）Spark SQL
【Spark】Spark 并行查询 Greenplum
《从0到1学习Spark》-- 初识Spark SQL
SparkSQL简介
Spark SQL（Spark shell）
Spark Sql源码解读－catalyst（SqlParser
Spark快速入门

假设有如下文本文件：
id, name, age, city
1001,zhangsan,45,beijing
1002,lisi,35,shanghai
1003,wangwu,29,tianjin
.......
基于hive对上述文件进行统计分析步骤为：

table定义：person
column定义：
id：int
name：string
age： int
city：string
hive：load data
sql: query....

Hive:是类似于sql的Hive QL语言， sql==>mapreduce
特点：查询计划被转化为MapReduce任务，执行效率差
改进：hive on tez、hive on spark、hive on mapreduce

Spark: hive on spark ==> shark(hive on spark)
shark 刚推出时非常受欢迎，基于spark、基于内存的列式存储、与hive能够兼容
缺点：hive ql的解析、逻辑执行计划生成、执行计划的优化是依赖于hive的
仅仅只是把物理执行计划从mr作业替换成spark作业

Shark终止以后，产生了2个分支：
1）hive on spark
Hive社区，源码是在Hive中
2）Spark SQL
Spark社区，源码是在Spark中
支持多种数据源，多种优化技术，扩展性好很多
以上可以说是Spark SQL产生的背景及衍生过程
目前，基于Hadoop使用SQL语句查询（SQL on Hadoop），有如下方式：

Hive
sql ==> mapreduce
metastore ：元数据
sql：database、table、view
facebook
impala
cloudera ： cdh（建议大家在生产上使用的hadoop系列版本）、cm
sql：自己的守护进程执行的，非mr
metastore
presto
facebook
京东
sql
drill
sql
访问：hdfs、rdbms、json、hbase、mongodb、s3、hive
Spark SQL
sql
dataframe/dataset api
metastore
访问：hdfs、rdbms、json、hbase、mongodb、s3、hive ==> 外部数据源

对于Spark SQL，官网是这么说的：Spark SQL is Apache Spark's module for working with structured data.
可以是针对于structured data（结构化数据），而不仅仅是SQL，个人认为这个名字起的不是很好，可见
Spark SQL它不仅仅有访问或者操作SQL的功能，还提供了其他的非常丰富的操作：外部数据源、优化

Spark SQL总结：

Spark SQL的应用并不局限于SQL；
访问hive、json、parquet等文件的数据；
SQL只是Spark SQL的一个功能而已，可见Spark SQL这个名字起的并不恰当
Spark SQL提供了SQL的api、DataFrame和Dataset的API；

网友评论

我爱编程

本文标题：Spark SQL（一）入门介绍

本文链接：https://www.haomeiwen.com/subject/qnzlfftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Spark SQL（一）入门介绍

相关文章