Facebook查询引擎Presto 介绍与应用

作者: 虫儿飞ZLEI | 来源:发表于2019-09-23 10:41 被阅读0次

Facebook查询引擎Presto 介绍与应用
Facebook Presto Connector 开发 [1]
Presto简介
大数据实时查询-Presto集群部署搭建
OLAP引擎：基于Presto组件进行跨数据源分析
【转载】presto是什么
Presto系列 | Presto基本介绍
Apache Impala 介绍与使用指南
PrestoDB （一）
spark sql快速入门

官方说明：

Presto是一种分布式SQL查询引擎，旨在查询分布在一个或多个异构数据源上的大型数据集。

与XSQL和moonbox都有类似的功能

1. 安装部署

1.1 下载安装包

下载地址：
https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.225/presto-server-0.225.tar.gz

解压后的文件目录

1.2 修改配置文件

在etc下修改config.properties(Presto 服务配置)

coordinator=true
node-scheduler.include-coordinator=true
http-server.http.port=8099
query.max-memory=10GB
query.max-memory-per-node=1GB
discovery-server.enabled=true
discovery.uri=http://centos4:8099

coordinator：指定是否运维Presto实例作为一个coordinator(接收来自客户端的查询情切管理每个查询的执行过程)
node-scheduler.include-coordinator：是否允许在coordinator服务中进行调度工作, 对于大型的集群，在一个节点上的Presto server即作为coordinator又作为worke将会降低查询性能。因为如果一个服务器作为worker使用，那么大部分的资源都会被worker占用，那么就不会有足够的资源进行关键任务调度、管理和监控查询执行
http-server.http.port：指定HTTP server的端口。Presto 使用 HTTP进行内部和外部的所有通讯
task.max-memory=1GB：一个单独的任务使用的最大内存 (一个查询计划的某个执行部分会在一个特定的节点上执行)。这个配置参数限制的GROUP BY语句中的Group的数目、JOIN关联中的右关联表的大小、ORDER BY语句中的行数和一个窗口函数中处理的行数。该参数应该根据并发查询的数量和查询的复杂度进行调整。如果该参数设置的太低，很多查询将不能执行；但是如果设置的太高将会导致JVM把内存耗光
discovery-server.enabled：Presto 通过Discovery 服务来找到集群中所有的节点。为了能够找到集群中所有的节点，每一个Presto实例都会在启动的时候将自己注册到discovery服务。Presto为了简化部署，并且也不想再增加一个新的服务进程，Presto coordinator 可以运行一个内嵌在coordinator 里面的Discovery 服务。这个内嵌的Discovery 服务和Presto共享HTTP server并且使用同样的端口
discovery.uri：Discovery server的URI。由于启用了Presto coordinator内嵌的Discovery 服务，因此这个uri就是Presto coordinator的uri。注意：这个URI一定不能以“/“结尾

ps: 如果是单节点部署，那么node-scheduler.include-coordinator=true，指定这个节点即作为coordinator，也作为worker。

在etc下修改node.properties（包含针对于每个节点的特定的配置信息）

node.environment=production
node.id=centos4-node-main-0001
node.data-dir=/var/presto/data

node.environment：集群名称, 所有在同一个集群中的Presto节点必须拥有相同的集群名称
node.id：每个Presto节点的唯一标示。每个节点的node.id都必须是唯一的。在Presto进行重启或者升级过程中每个节点的node.id必须保持不变。如果在一个节点上安装多个Presto实例（例如：在同一台机器上安装多个Presto节点），那么每个Presto节点必须拥有唯一的node.id
node.data-dir：数据存储目录的位置（操作系统上的路径）, Presto将会把日期和数据存储在这个目录下

在etc下修改jvm.config

-server
-Xmx60G
-Xms4G
-Xmn2g
-Xss512k
-XX:+UseG1GC
-XX:G1HeapRegionSize=32M
-XX:ParallelGCThreads=20
-XX:+UseGCOverheadLimit
-XX:+ExplicitGCInvokesConcurrent
-XX:+HeapDumpOnOutOfMemoryError
-XX:+ExitOnOutOfMemoryError
-Djava.library.path=/opt/cloudera/parcels/CDH/lib/hadoop/lib/native

1.3 配置数据源

presto可以接入多种数据源，以hive和mysql为例

接入hive数据源：
在etc/catalog目录下创建hive.properties文件

connector.name=hive-hadoop2
hive.metastore.uri=thrift://centos4:9083

接入mysql数据源：
在etc/catalog目录下创建mysql.properties文件

connector.name=mysql
connection-url=jdbc:mysql://ip:3306
connection-user=username
connection-password=password

2. 启动和停止命令

2.1 后台启动

bin/launcher start

2.2 前台启动

bin/launcher run

2.3 停止服务

bin/laucher stop

3. 启动测试

bin/launcher start

3.1 页面

启动成功后可以在web端看到ui界面，访问coordinator节点的discovery.uri地址，可以看到如下界面：

3.2 命令行查询数据

3.2.1 下载可执行的jar包

下载地址：https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.225/presto-cli-0.225-executable.jar

重命名为presto，并赋予可执行权限chmod +x

3.2.2 运行jar包

./presto --server centos4:18099

image.png

3.2.3 查询命令

说明，presto用catalog表示数据源，用schemas表示数据库

显示数据源

显示数据库

image.png

显示数据表

image.png

查询数据

image.png

在ui页面也可以看到查询记录

3.3 jdbc代码连接

需要引入jar包

<dependency>
    <groupId>com.facebook.presto</groupId>
    <artifactId>presto-jdbc</artifactId>
    <version>0.225</version>
</dependency>

jdbc URL

这三种形式都可以

jdbc:presto://host:port
jdbc:presto://host:port/catalog
jdbc:presto://host:port/catalog/schema

可以像连接jdbc一样连接

// URL parameters
String url = "jdbc:presto://example.net:8080/hive/sales";
Properties properties = new Properties();
properties.setProperty("user", "test");
properties.setProperty("password", "secret");
properties.setProperty("SSL", "true");
Connection connection = DriverManager.getConnection(url, properties);

// properties
String url = "jdbc:presto://example.net:8080/hive/sales?user=test&password=secret&SSL=true";
Connection connection = DriverManager.getConnection(url);