【转载】presto是什么

作者: 区块鱼 | 来源:发表于2018-12-07 12:40 被阅读0次

【转载】presto是什么
Presto介绍，使用及安装部署
Presto 配置
presto jdbc java
目录
Presto源码分析之Slice
presto 的安装与使用
Presto参考
presto 连接hive
OLAP引擎：基于Presto组件进行跨数据源分析

presto是什么

是Facebook开源的，完全基于内存的并⾏计算，分布式SQL交互式查询引擎

是一种Massively parallel processing (MPP)架构，多个节点管道式执⾏

⽀持任意数据源（通过扩展式Connector组件），数据规模GB~PB级

使用的技术，如向量计算，动态编译执⾏计划，优化的ORC和Parquet Reader等

presto不太支持存储过程，支持部分标准sql

presto的查询速度比hive快5-10倍

上面讲述了presto是什么，查询速度，现在来看看presto适合干什么

适合：PB级海量数据复杂分析，交互式SQL查询，⽀持跨数据源查询

不适合：多个大表的join操作，因为presto是基于内存的，多张大表在内存里可能放不下

和hive的对比：

hive是一个数据仓库，是一个交互式比较弱一点的查询引擎，交互式没有presto那么强，而且只能访问hdfs的数据

presto是一个交互式查询引擎，可以在很短的时间内返回查询结果，秒级，分钟级，能访问很多数据源

hive在查询100Gb级别的数据时，消耗时间已经是分钟级了

但是presto是取代不了hive的，因为p全部的数据都是在内存中，限制了在内存中的数据集大小，比如多个大表的join，这些大表是不能完全放进内存的，实际应用中，对于在presto的查询是有一定规定条件的，比比如说一个查询在presto查询超过30分钟，那就kill掉吧，说明不适合在presto上使用，主要原因是，查询过大的话，会占用整个集群的资源，这会导致你后续的查询是没有资源进行查询的，这跟presto的设计理念是冲突的，就像是你进行一个查询，但是要等个5分钟才有资源继续查询，这是很不合理的，交互式就变得弱了很多

presto基本架构

在谈presto架构之前，先回顾下hive的架构

image

hive：client将查询请求发送到hive server，它会和metastor交互，获取表的元信息，如表的位置结构等，之后hive server会进行语法解析，解析成语法树，变成查询计划，进行优化后，将查询计划交给执行引擎，默认是MR，然后翻译成MR

presto：presto是在它内部做hive类似的逻辑

image

接下来，深入看下presto的内部架构

image

这里面三个服务：

Coordinator是一个中心的查询角色，它主要的一个作用是接受查询请求，将他们转换成各种各样的任务，将任务拆解后分发到多个worker去执行各种任务的节点

1、解析SQL语句

2、⽣成执⾏计划

3、分发执⾏任务给Worker节点执⾏

Worker，是一个真正的计算的节点，执行任务的节点，它接收到task后，就会到对应的数据源里面，去把数据提取出来，提取方式是通过各种各样的connector：

1、负责实际执⾏查询任务

Discovery service，是将coordinator和woker结合到一起的服务：

1、Worker节点启动后向Discovery Server服务注册

2、Coordinator从Discovery Server获得Worker节点

coordinator和woker之间的关系是怎么维护的呢？是通过Discovery Server，所有的worker都把自己注册到Discovery Server上，Discovery Server是一个发现服务的service，Discovery Server发现服务之后，coordinator便知道在我的集群中有多少个worker能够给我工作，然后我分配工作到worker时便有了根据

最后，presto是通过connector plugin获取数据和元信息的，它不是⼀个数据存储引擎，不需要有数据，presto为其他数据存储系统提供了SQL能⼒，客户端协议是HTTP+JSON

Presto支持的数据源和存储格式

Hadoop/Hive connector与存储格式：

HDFS，ORC，RCFILE，Parquet，SequenceFile，Text

开源数据存储系统：

MySQL & PostgreSQL，Cassandra，Kafka，Redis

其他：

MongoDB，ElasticSearch，HBase

Presto中SQL运行过程：整体流程

image

1、当我们执行一条sql查询，coordinator接收到这条sql语句以后，它会有一个sql的语法解析器去把sql语法解析变成一个抽象的语法树AST，这抽象的语法书它里面只是进行一些语法解析，如果你的sql语句里面，比如说关键字你用的是int而不是Integer，就会在语法解析这里给暴露出来

2、如果语法是符合sql语法规范，之后会经过一个逻辑查询计划器的组件，他的主要作用是，比如说你sql里面出现的表，他会通过connector的方式去meta里面把表的schema，列名，列的类型等，全部给找出来，将这些信息，跟语法树给对应起来，之后会生成一个物理的语法树节点，这个语法树节点里面，不仅拥有了它的查询关系，还拥有类型的关系，如果在这一步，数据库表里某一列的类型，跟你sql的类型不一致，就会在这里报错

3、如果通过，就会得到一个逻辑的查询计划，然后这个逻辑查询计划，会被送到一个分布式的逻辑查询计划器里面，进行一个分布式的解析，分布式解析里面，他就会去把对应的每一个查询计划转化为task

4、在每一个task里面，他会把对应的位置信息全部给提取出来，交给执行的plan，由plan把对应的task发给对应的worker去执行，这就是整个的一个过程

这是一个通用的sql解析流程，像hive也是遵循类似这样的流程，不一样的地方是distribution planner和executor pan，这里是各个引擎不一样的地方，前面基本上都一致的

Presto中SQL运行过程：MapReduce vs Presto

image

task是放在每个worker上该执行的，每个task执行完之后，数据是存放在内存里了，而不像mr要写磁盘，然后当多个task之间要进行数据交换，比如shuffle的时候，直接从内存里处理

Presto监控和配置：监控

Web UI

Query基本状态的查询

JMX HTTP API

GET /v1/jmx/mbean[/{objectName}]
　　　　• com.facebook.presto.execution:name=TaskManager
　　　　• com.facebook.presto.execution:name=QueryManager
　　　　• com.facebook.presto.execution:name=NodeScheduler
事件通知
　　Event Listener
　　　　• query start, query complete

Presto监控和配置：配置

执行计划计划（Coordinator）

node-scheduler.include-coordinator

• 是否让coordinator运行task

query.initial-hash-partitions

• 每个GROUP BY操作使⽤的hash bucket(=tasks)最大数目(default: 8)

node-scheduler.min-candidates

• 每个stage并发运行过程中可使用的最大worker数目（default：10）

query.schedule-split-batch-size

• 每个split数据量

任务执行（Worker）

query.max-memory (default: 20 GB)

• 一个查询可以使用的最大集群内存

• 控制集群资源使用，防止一个大查询占住集群所有资源

• 使用resource_overcommit可以突破限制

query.max-memory-per-node (default: 1 GB)

• 一个查询在一个节点上可以使用的最大内存

举例

• Presto集群配置： 120G * 40

• query.max-memory=1 TB

• query.max-memory-per-node=20 GB

query.max-run-time (default: 100 d)

• 一个查询可以运行的最大时间

• 防止用户提交一个长时间查询阻塞其他查询

task.max-worker-threads (default: Node CPUs * 4)

• 每个worker同时运行的split个数

• 调大可以增加吞吐率，但是会增加内存的消耗

队列（Queue）

任务提交或者资源使用的一些配置，是通过队列的配置来实现的

资源隔离，查询可以提交到相应队列中

• 资源隔离，查询可以提交到相应队列中
• 每个队列可以配置ACL（权限）
• 每个队列可以配置Quota
　　可以并发运行查询的数量
　　排队的最大数量

image

大数据OLAP引擎对比

Presto：内存计算，mpp架构

Druid：时序，数据放内存，索引，预计算

Spark SQL：基于Spark Core，mpp架构

Kylin：Cube预计算

最后，一些零散的知识点

presto适合pb级的海量数据查询分析，不是说把pb的数据放进内存，比如一张pb表，查询count，vag这种有个特点，虽然数据很多，但是最终的查询结果很小，这种就不会把数据都放到内存里面，只是在运算的过程中，拿出一些数据放内存，然后计算，在抛出，在拿，这种的内存占用量是很小的，但是join这种，在运算的中间过程会产生大量的数据，或者说那种查询的数据不大，但是生成的数据量很大，这种也是不合适用presto的，但不是说不能做，只是会占用大量内存，消耗很长的时间，这种hive合适点

presto算是hive的一个补充，需要尽快得出结果的用presto，否则用hive

work是部署的时候就事先部署好的，work启动100个，使用的work不一定100个，而是根据coordinator来决定拆分成多少个task，然后分发到多少个work去

一个coordinator可能同时又多个用户在请求query，然后共享work的去执行，这是一个共享的集群

coordinator和discovery server可以启动在一个节点一个进程，也可以放在不同的node上，但是现在公司大部分都是放在一个节点上，一个launcher start会同时把上述两个启动起来

对于presto的容错，如果某个worker挂掉了，discovery server会发现并通知coordinator

但是对于一个query，是没有容错的，一旦一个work挂了，那么整个qurey就是败了

因为对于presto，他的查询时间是很短的，与其查询这里做容错能力，不如重新执行来的快来的简单

对于coordinator和discovery server节点的单点故障，presto还没有开始处理这个问题貌似

【转载】presto是什么
presto是什么是Facebook开源的，完全基于内存的并⾏计算，分布式SQL交互式查询引擎是一种Massi...
Presto介绍，使用及安装部署
1.Presto是什么 Presto通过使用分布式查询，可以快速高效的完成海量数据的查询。如果你需要处理TB或者P...
Presto 配置
Presto架构图下载presto-server-317.tar.gz解压到/opt/app/presto-se...
presto jdbc java
com.facebook.presto presto...
目录
基于presto0.155，以一条主线： cli查询presto+hive返回一、cli与presto通信机制...
Presto源码分析之Slice
Slice是Presto里面用来对内存高效地、自由地进行操作的接口。它在Presto里面很关键, Presto里面...
presto 的安装与使用
相关说明： Presto官网: Presto | Distributed SQL Query Engine for...
Presto参考
0.zepplin中使用presto 1.presto正则表达式 2.解析json 3.presto时间 4.pr...
presto 连接hive
修改hive-site.xml增加启动 presto配置启动presto服务连接测试
OLAP引擎：基于Presto组件进行跨数据源分析
一、Presto概述 1、Presto简介 Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数...

【转载】presto是什么

presto是什么

presto基本架构

Presto支持的数据源和存储格式

Presto中SQL运行过程：整体流程

Presto中SQL运行过程：MapReduce vs Presto

Presto监控和配置：监控

Presto监控和配置：配置

执行计划计划（Coordinator）

任务执行（Worker）

队列（Queue）

大数据OLAP引擎对比

最后，一些零散的知识点

相关文章

【转载】presto是什么

Presto介绍，使用及安装部署

Presto 配置

presto jdbc java

目录

Presto源码分析之Slice

presto 的安装与使用

Presto参考

presto 连接hive

OLAP引擎：基于Presto组件进行跨数据源分析

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读