假设有如下文本文件:
id, name, age, city
1001,zhangsan,45,beijing
1002,lisi,35,shanghai
1003,wangwu,29,tianjin
.......
基于hive对上述文件进行统计分析步骤为:
- table定义:person
- column定义:
id:int
name:string
age: int
city:string - hive:load data
- sql: query....
Hive:是类似于sql的Hive QL语言, sql==>mapreduce
特点:查询计划被转化为MapReduce任务,执行效率差
改进:hive on tez、hive on spark、hive on mapreduce
Spark: hive on spark ==> shark(hive on spark)
shark 刚推出时非常受欢迎, 基于spark、基于内存的列式存储、与hive能够兼容
缺点:hive ql的解析、逻辑执行计划生成、执行计划的优化是依赖于hive的
仅仅只是把物理执行计划从mr作业替换成spark作业
Shark终止以后,产生了2个分支:
1)hive on spark
Hive社区,源码是在Hive中
2)Spark SQL
Spark社区,源码是在Spark中
支持多种数据源,多种优化技术,扩展性好很多
以上可以说是Spark SQL产生的背景及衍生过程
目前,基于Hadoop使用SQL语句查询(SQL on Hadoop),有如下方式:
- Hive
sql ==> mapreduce
metastore : 元数据
sql:database、table、view
facebook - impala
cloudera : cdh(建议大家在生产上使用的hadoop系列版本)、cm
sql:自己的守护进程执行的,非mr
metastore - presto
facebook
京东
sql - drill
sql
访问:hdfs、rdbms、json、hbase、mongodb、s3、hive - Spark SQL
sql
dataframe/dataset api
metastore
访问:hdfs、rdbms、json、hbase、mongodb、s3、hive ==> 外部数据源
对于Spark SQL,官网是这么说的:Spark SQL is Apache Spark's module for working with structured data.
可以是针对于structured data(结构化数据),而不仅仅是SQL,个人认为这个名字起的不是很好,可见
Spark SQL它不仅仅有访问或者操作SQL的功能,还提供了其他的非常丰富的操作:外部数据源、优化
Spark SQL总结:
- Spark SQL的应用并不局限于SQL;
- 访问hive、json、parquet等文件的数据;
- SQL只是Spark SQL的一个功能而已,可见Spark SQL这个名字起的并不恰当
- Spark SQL提供了SQL的api、DataFrame和Dataset的API;
网友评论