美文网首页
分布式 SQL 引擎

分布式 SQL 引擎

作者: 丹之 | 来源:发表于2018-12-29 18:32 被阅读124次

分布式 SQL 引擎

使用 JDBC/ODBC 或命令行接口,Spark SQL 还可以作为一个分布式查询引擎。在该模式下,终端用户或 Application 可以直接执行 SQL 查询,而不用写任何代码。

JDBC/ODBC thrift 服务

这里的 JDBC/ODBC 服务对应于 Hive 1.2.1 中的 HiveServer2,可以通过 beeline 脚本来测试特服务。首先执行下面的命令启动 JDBC/ODBC 服务:

./sbin/start-thriftserver.sh

该脚本接受所有 bin/spark-submit 的参数,另外还可以通过 --hiveconf 选项来指定 Hive 属性。该服务默认监听 localhost:10000,可以通过设置环境变量值来修改:

export HIVE_SERVER2_THRIFT_PORT=<listening-port>
export HIVE_SERVER2_THRIFT_BIND_HOST=<listening-host>
./sbin/start-thriftserver.sh \
  --master <master-uri> \
  ...

或通过 --hiveconf 设置:

./sbin/start-thriftserver.sh \
  --hiveconf hive.server2.thrift.port=<listening-port> \
  --hiveconf hive.server2.thrift.bind.host=<listening-host> \
  --master <master-uri>
  ...

然后使用 beeline 来测试 JDBC/ODBC 服务:

./bin/beeline

使用 beeline 连接 JDBC/ODBC 服务:

beeline> !connect jdbc:hive2://localhost:10000

Beeline 需要你提供一个用户名和密码。在非安全模式中,键入机器用户名和空密码即可;在安全模式中,可以按照 beeline 进行设置
Thrift JDBC server 也支持通过 HTTP 传输 RPC 消息,如下设置系统参数或 hive-site.xml 启用 HTTP 模式:

hive.server2.transport.mode - Set this to value: http
hive.server2.thrift.http.port - HTTP port number fo listen on; default is 10001
hive.server2.http.endpoint - HTTP endpoint; default is cliservice

使用 beeline 来连接 HTTP 模式下的 JDBC/ODBC thrift server:

beeline> !connect jdbc:hive2://<host>:<port>/<database>?hive.server2.transport.mode=http;hive.server2.thrift.http.path=<http_endpoint>

https://github.com/keepsimplefocus/spark-sourcecodes-analysis/blob/master/spark-sql/Spark-SQL%EF%BC%8CDataFrame%E4%BB%A5%E5%8F%8A-Datasets-%E7%BC%96%E7%A8%8B%E6%8C%87%E5%8D%97---For-2-0.md

相关文章

  • 分布式 SQL 引擎

    分布式 SQL 引擎 使用 JDBC/ODBC 或命令行接口,Spark SQL 还可以作为一个分布式查询引擎。在...

  • 分布式分析引擎Kylin Spring DataSource封装

    Kylin 概述 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查...

  • 分布式SQL查询引擎-Hive

    分布式SQL查询引擎方面,了解到的有Hive、SparkSQL、Presto、Flink,可以说各有侧重,今天说一...

  • 黑猴子的家:Kylin 之 概述

    1、Kylin定义 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查...

  • CDH环境下Kylin集群模式安装部署

    一、Kylin简介 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL...

  • Kylin

    简介: Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多...

  • TiSpark 入门文档

    一、TiSpark 概述 1.拓扑图 TiSpark 是将 Spark SQL 直接运行在分布式存储引擎 TiKV...

  • 阿里云DRDS 5.3 性能提升300%,比速超跑

    近日,阿里云发布了第三代DRDS分布式SQL引擎,即DRDS(阿里云分布式关系型数据库服务)5.3 版本 ,相较于...

  • kylin 介绍

    Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(...

  • Apache Kylin查询性能优化

    作者:周倚平 编辑:Sammi Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL...

网友评论

      本文标题:分布式 SQL 引擎

      本文链接:https://www.haomeiwen.com/subject/zyrplqtx.html