美文网首页
Facebook查询引擎Presto 介绍与应用

Facebook查询引擎Presto 介绍与应用

作者: 虫儿飞ZLEI | 来源:发表于2019-09-23 10:41 被阅读0次

    官方说明:

    Presto是一种分布式SQL查询引擎,旨在查询分布在一个或多个异构数据源上的大型数据集。

    与XSQL和moonbox都有类似的功能

    1. 安装部署

    1.1 下载安装包

    下载地址:
    https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.225/presto-server-0.225.tar.gz

    解压后的文件目录

    1.2 修改配置文件

    在etc下修改config.properties(Presto 服务配置)

    coordinator=true
    node-scheduler.include-coordinator=true
    http-server.http.port=8099
    query.max-memory=10GB
    query.max-memory-per-node=1GB
    discovery-server.enabled=true
    discovery.uri=http://centos4:8099
    
    • coordinator:指定是否运维Presto实例作为一个coordinator(接收来自客户端的查询情切管理每个查询的执行过程)
    • node-scheduler.include-coordinator:是否允许在coordinator服务中进行调度工作, 对于大型的集群,在一个节点上的Presto server即作为coordinator又作为worke将会降低查询性能。因为如果一个服务器作为worker使用,那么大部分的资源都会被worker占用,那么就不会有足够的资源进行关键任务调度、管理和监控查询执行
    • http-server.http.port:指定HTTP server的端口。Presto 使用 HTTP进行内部和外部的所有通讯
    • task.max-memory=1GB:一个单独的任务使用的最大内存 (一个查询计划的某个执行部分会在一个特定的节点上执行)。 这个配置参数限制的GROUP BY语句中的Group的数目、JOIN关联中的右关联表的大小、ORDER BY语句中的行数和一个窗口函数中处理的行数。 该参数应该根据并发查询的数量和查询的复杂度进行调整。如果该参数设置的太低,很多查询将不能执行;但是如果设置的太高将会导致JVM把内存耗光
    • discovery-server.enabled:Presto 通过Discovery 服务来找到集群中所有的节点。为了能够找到集群中所有的节点,每一个Presto实例都会在启动的时候将自己注册到discovery服务。Presto为了简化部署,并且也不想再增加一个新的服务进程,Presto coordinator 可以运行一个内嵌在coordinator 里面的Discovery 服务。这个内嵌的Discovery 服务和Presto共享HTTP server并且使用同样的端口
    • discovery.uri:Discovery server的URI。由于启用了Presto coordinator内嵌的Discovery 服务,因此这个uri就是Presto coordinator的uri。注意:这个URI一定不能以“/“结尾

    ps: 如果是单节点部署,那么node-scheduler.include-coordinator=true,指定这个节点即作为coordinator,也作为worker。

    在etc下修改node.properties(包含针对于每个节点的特定的配置信息)

    node.environment=production
    node.id=centos4-node-main-0001
    node.data-dir=/var/presto/data
    
    • node.environment: 集群名称, 所有在同一个集群中的Presto节点必须拥有相同的集群名称
    • node.id: 每个Presto节点的唯一标示。每个节点的node.id都必须是唯一的。在Presto进行重启或者升级过程中每个节点的node.id必须保持不变。如果在一个节点上安装多个Presto实例(例如:在同一台机器上安装多个Presto节点),那么每个Presto节点必须拥有唯一的node.id
    • node.data-dir: 数据存储目录的位置(操作系统上的路径), Presto将会把日期和数据存储在这个目录下

    在etc下修改jvm.config

    -server
    -Xmx60G
    -Xms4G
    -Xmn2g
    -Xss512k
    -XX:+UseG1GC
    -XX:G1HeapRegionSize=32M
    -XX:ParallelGCThreads=20
    -XX:+UseGCOverheadLimit
    -XX:+ExplicitGCInvokesConcurrent
    -XX:+HeapDumpOnOutOfMemoryError
    -XX:+ExitOnOutOfMemoryError
    -Djava.library.path=/opt/cloudera/parcels/CDH/lib/hadoop/lib/native
    

    1.3 配置数据源

    presto可以接入多种数据源,以hive和mysql为例

    接入hive数据源:
    在etc/catalog目录下创建hive.properties文件

    connector.name=hive-hadoop2
    hive.metastore.uri=thrift://centos4:9083
    

    接入mysql数据源:
    在etc/catalog目录下创建mysql.properties文件

    connector.name=mysql
    connection-url=jdbc:mysql://ip:3306
    connection-user=username
    connection-password=password
    

    2. 启动和停止命令

    2.1 后台启动

    bin/launcher start

    2.2 前台启动

    bin/launcher run

    2.3 停止服务

    bin/laucher stop

    3. 启动测试

    bin/launcher start

    3.1 页面

    启动成功后可以在web端看到ui界面,访问coordinator节点的discovery.uri地址,可以看到如下界面:


    3.2 命令行查询数据

    3.2.1 下载可执行的jar包

    下载地址:https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.225/presto-cli-0.225-executable.jar

    重命名为presto,并赋予可执行权限chmod +x

    3.2.2 运行jar包

    ./presto --server centos4:18099
    
    image.png

    3.2.3 查询命令

    说明,presto用catalog表示数据源,用schemas表示数据库

    • 显示数据源


    • 显示数据库


      image.png
    • 显示数据表


      image.png
    • 查询数据


      image.png

    在ui页面也可以看到查询记录


    3.3 jdbc代码连接

    • 需要引入jar包
    <dependency>
        <groupId>com.facebook.presto</groupId>
        <artifactId>presto-jdbc</artifactId>
        <version>0.225</version>
    </dependency>
    
    • jdbc URL

    这三种形式都可以

    jdbc:presto://host:port
    jdbc:presto://host:port/catalog
    jdbc:presto://host:port/catalog/schema
    

    可以像连接jdbc一样连接

    // URL parameters
    String url = "jdbc:presto://example.net:8080/hive/sales";
    Properties properties = new Properties();
    properties.setProperty("user", "test");
    properties.setProperty("password", "secret");
    properties.setProperty("SSL", "true");
    Connection connection = DriverManager.getConnection(url, properties);
    
    // properties
    String url = "jdbc:presto://example.net:8080/hive/sales?user=test&password=secret&SSL=true";
    Connection connection = DriverManager.getConnection(url);
    

    4. 后话

    官方文档:https://prestodb.github.io/docs/current/index.html
    参考文档:https://blog.csdn.net/zyj8170/article/details/60954885

    相关文章

      网友评论

          本文标题:Facebook查询引擎Presto 介绍与应用

          本文链接:https://www.haomeiwen.com/subject/zadpuctx.html