基于Hadoop的sql方案如hive,sparksql架构一般如下:
- Server : ThriftServer 完成sql的解析及应用(如MR,Spark,Tez)的提交
- 传统数据库 : 用于存储表的元数据,常见的由Mysql,postgreSql等
- 管理元数据: MetaStore,作为ThriftServer和传统数据库的桥梁
- 数据存储 : HDFS
Hive Sql执行流程图

SparkSql 执行流程图
SparkSql是基于spark Core的 onHadoop的sql解决方案。有多种sql解决方案,如通过启动Server的方式对客户端提交sql方案,客户端sql可通过beeline,JDBC的接口完成sql的解析执行。也可以直接调用sparkApi完成sql执行。
ThriftServer模式的sql方案

SparkApi模式的sql方案

网友评论