官方说明:
Presto是一种分布式SQL查询引擎,旨在查询分布在一个或多个异构数据源上的大型数据集。
与XSQL和moonbox都有类似的功能
1. 安装部署
1.1 下载安装包
下载地址:
https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.225/presto-server-0.225.tar.gz
1.2 修改配置文件
在etc下修改config.properties(Presto 服务配置)
coordinator=true
node-scheduler.include-coordinator=true
http-server.http.port=8099
query.max-memory=10GB
query.max-memory-per-node=1GB
discovery-server.enabled=true
discovery.uri=http://centos4:8099
- coordinator:指定是否运维Presto实例作为一个coordinator(接收来自客户端的查询情切管理每个查询的执行过程)
- node-scheduler.include-coordinator:是否允许在coordinator服务中进行调度工作, 对于大型的集群,在一个节点上的Presto server即作为coordinator又作为worke将会降低查询性能。因为如果一个服务器作为worker使用,那么大部分的资源都会被worker占用,那么就不会有足够的资源进行关键任务调度、管理和监控查询执行
- http-server.http.port:指定HTTP server的端口。Presto 使用 HTTP进行内部和外部的所有通讯
- task.max-memory=1GB:一个单独的任务使用的最大内存 (一个查询计划的某个执行部分会在一个特定的节点上执行)。 这个配置参数限制的GROUP BY语句中的Group的数目、JOIN关联中的右关联表的大小、ORDER BY语句中的行数和一个窗口函数中处理的行数。 该参数应该根据并发查询的数量和查询的复杂度进行调整。如果该参数设置的太低,很多查询将不能执行;但是如果设置的太高将会导致JVM把内存耗光
- discovery-server.enabled:Presto 通过Discovery 服务来找到集群中所有的节点。为了能够找到集群中所有的节点,每一个Presto实例都会在启动的时候将自己注册到discovery服务。Presto为了简化部署,并且也不想再增加一个新的服务进程,Presto coordinator 可以运行一个内嵌在coordinator 里面的Discovery 服务。这个内嵌的Discovery 服务和Presto共享HTTP server并且使用同样的端口
- discovery.uri:Discovery server的URI。由于启用了Presto coordinator内嵌的Discovery 服务,因此这个uri就是Presto coordinator的uri。注意:这个URI一定不能以“/“结尾
ps: 如果是单节点部署,那么node-scheduler.include-coordinator=true,指定这个节点即作为coordinator,也作为worker。
在etc下修改node.properties(包含针对于每个节点的特定的配置信息)
node.environment=production
node.id=centos4-node-main-0001
node.data-dir=/var/presto/data
- node.environment: 集群名称, 所有在同一个集群中的Presto节点必须拥有相同的集群名称
- node.id: 每个Presto节点的唯一标示。每个节点的node.id都必须是唯一的。在Presto进行重启或者升级过程中每个节点的node.id必须保持不变。如果在一个节点上安装多个Presto实例(例如:在同一台机器上安装多个Presto节点),那么每个Presto节点必须拥有唯一的node.id
- node.data-dir: 数据存储目录的位置(操作系统上的路径), Presto将会把日期和数据存储在这个目录下
在etc下修改jvm.config
-server
-Xmx60G
-Xms4G
-Xmn2g
-Xss512k
-XX:+UseG1GC
-XX:G1HeapRegionSize=32M
-XX:ParallelGCThreads=20
-XX:+UseGCOverheadLimit
-XX:+ExplicitGCInvokesConcurrent
-XX:+HeapDumpOnOutOfMemoryError
-XX:+ExitOnOutOfMemoryError
-Djava.library.path=/opt/cloudera/parcels/CDH/lib/hadoop/lib/native
1.3 配置数据源
presto可以接入多种数据源,以hive和mysql为例
接入hive数据源:
在etc/catalog目录下创建hive.properties文件
connector.name=hive-hadoop2
hive.metastore.uri=thrift://centos4:9083
接入mysql数据源:
在etc/catalog目录下创建mysql.properties文件
connector.name=mysql
connection-url=jdbc:mysql://ip:3306
connection-user=username
connection-password=password
2. 启动和停止命令
2.1 后台启动
bin/launcher start
2.2 前台启动
bin/launcher run
2.3 停止服务
bin/laucher stop
3. 启动测试
bin/launcher start
3.1 页面
启动成功后可以在web端看到ui界面,访问coordinator节点的discovery.uri地址,可以看到如下界面:
3.2 命令行查询数据
3.2.1 下载可执行的jar包
下载地址:https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.225/presto-cli-0.225-executable.jar
重命名为presto,并赋予可执行权限chmod +x
3.2.2 运行jar包
./presto --server centos4:18099
image.png
3.2.3 查询命令
说明,presto用catalog表示数据源,用schemas表示数据库
-
显示数据源
-
显示数据库
image.png
-
显示数据表
image.png
-
查询数据
image.png
在ui页面也可以看到查询记录
3.3 jdbc代码连接
- 需要引入jar包
<dependency>
<groupId>com.facebook.presto</groupId>
<artifactId>presto-jdbc</artifactId>
<version>0.225</version>
</dependency>
- jdbc URL
这三种形式都可以
jdbc:presto://host:port
jdbc:presto://host:port/catalog
jdbc:presto://host:port/catalog/schema
可以像连接jdbc一样连接
// URL parameters
String url = "jdbc:presto://example.net:8080/hive/sales";
Properties properties = new Properties();
properties.setProperty("user", "test");
properties.setProperty("password", "secret");
properties.setProperty("SSL", "true");
Connection connection = DriverManager.getConnection(url, properties);
// properties
String url = "jdbc:presto://example.net:8080/hive/sales?user=test&password=secret&SSL=true";
Connection connection = DriverManager.getConnection(url);
4. 后话
官方文档:https://prestodb.github.io/docs/current/index.html
参考文档:https://blog.csdn.net/zyj8170/article/details/60954885
网友评论