Apache Druid 本地 debug 环境搭建

作者: YancyPeng | 来源:发表于2023-12-04 18:21 被阅读0次

Apache druid 环境搭建
服务器部署TP5项目
hadoop hdfs 有内网、公网ip后，本地调试访问不了集群
iOS Apache服务器搭建
iOS Mac本地搭建Apache服务器及重启、停止、关闭开机自
ROCKETMQ 源码debug 问题集锦
Druid-Druid架构分析
Druid SQL官方文档
2020-04-20
MAMP安装和使用教程

说在前面

最近在研究 Apache Druid 的原理，在不 debug 的情况下已经无法再进一步深入了，因此想在本地搭一套调试环境，但网上可用的资料很少，只能自己摸索，在这期间走过不少弯路，这里做个记录，希望也能给后来的人一些提示与帮助。

安装部署

1.端口列表

以下是 Druid 默认的端口列表，注意是否和本地其他服务是否有端口冲突，如果有端口被占用会显示启动失败

Role	Port	Description
Coordinator	8081	管理集群上的数据可用性
Historical	8083	存储/查询历史数据
Broker	8082	处理来自外部 client 的请求
Overload	8090	处理数据 ingestion 的负载
MiddleManager	8091	负责数据的 ingestion
Router	8888	将请求路由到 Brokers/Coordinators/Overloads

2.源代码下载

Apache Druid 主要是方便我们按照自己的需求按模块进行代码 debug，了解其 query 和 ingest 原理。

3.安装包下载

官网安装包下载：download 。我这里下载的是 0.22.1 版本，由于 Druid 运行依赖的组件很多，一个一个启动繁琐不说，还要安装不少依赖项。这个安装包中有封装好的 bin 文件，无需 docker 也可以一键启动所有组件。基于此，我们可以通过该安装包以及源代码来 debug 我们想要了解的组件。

$\color{#ea4335}{举个例子}$ 我想要 debug broker 组件，于是：

安装包 - broker + 源代码启动 broker = 完整的 druid 环境

安装包下载完成后解压：

tar -zxvf apache-druid-0.22.1-bin.tar.gz

4.single-server 配置参考

Scale	Required resources
nano-quickstart	1 CPU，4GB RAM
micro-quickstart	4 CPU，16GB RAM
small	8 CPU，64GB RAM
medium	16 CPU，128GB RAM
large	32 CPU，256GB RAM
xlarge	64CPU，512GB RAM

启动命令： ./apache-druid-0.22.1/bin/start-nano-quickstart
启动配置：./apache-druid-0.22.1/conf/supervise/single-server/nano-quickstart.conf

:verify bin/verify-java
:verify bin/verify-default-ports
:kill-timeout 10

!p10 zk bin/run-zk conf
coordinator-overlord bin/run-druid coordinator-overlord conf/druid/single-server/nano-quickstart
# 这里我们注释掉 broker，改为使用源代码启动
#broker bin/run-druid broker conf/druid/single-server/nano-quickstart
router bin/run-druid router conf/druid/single-server/nano-quickstart
historical bin/run-druid historical conf/druid/single-server/nano-quickstart
!p90 middleManager bin/run-druid middleManager conf/druid/single-server/nano-quickstart

由于我本地机器资源有限，这里以 nano-quickstart 为例，其他的同理，都在上述目录下，不再赘述

5.使用安装包其他其他服务

直接执行上述的 bin 文件，能够得到下图输出，可以看到其中是缺少 broker 的，接下来我们来编译源代码

nano-quickstart.png

6. 源代码编译

第一个坑，将代码 clone 到本地后是 $\color{red}{无法直接启动}$ 的，要进行一些编译与配置：

error.png
如上图所示，Parser 类依赖的 ExprLexer 和 ExprParser 类在整个项目中都找不到，实际的代码需要通过 ANTLR 编译 Expr.g4 文件生成。

g4.png
ANTLR（ANother Tool for Language Recognition）是一个强大的解析器生成器，用于读取、处理、执行或翻译结构化文本或二进制文件。它被广泛用于构建语言、工具和框架。ANTLR 根据语法定义生成解析器，解析器可以构建和遍历解析树。

所有编程语言的语法，都可以用ANTLR来定义。ANTLR提供了大量的官方 grammar 示例，包含了各种常见语言，比如Java、SQL、Javascript、PHP等等。

Twitter 使用 ANTLR 进行语法分析，每天处理超过20亿次查询；Hadoop 生态系统中的 Hive、Pig、数据仓库和分析系统所使用的语言都用到了 ANTLR；Lex Machina 将 ANTLR 用于分析法律文本；Oracle 在 SQL 开发者 IDE 和迁移工具中使用了 ANTLR；NetBeans 的 IDE 使用 ANTLR 来解析 C++；Hibernate 对象-关系映射框架（ORM）使用 ANTLR 来处理 HQL 语言。

6.1 IDEA 安装 ANTLR v4 grammar plugin 插件

ANTLR.png

安装完成后我们直接来编译 Expr.g4 文件，右键 -> Generate ANTLR Recognizer

compile.png

接下来不出意外的话马上就要出意外了，果然编译开始报错了hhhhh，如下所示：

compile_error.png
这是因为文件中有一些转义字符报错，需要对 Expr.g4 文件进行修改，以下是我修改过的文件：

// Licensed to the Apache Software Foundation (ASF) under one or more
// contributor license agreements.  See the NOTICE file distributed with
// this work for additional information regarding copyright ownership.
// The ASF licenses this file to You under the Apache License, Version 2.0
// (the "License"); you may not use this file except in compliance with
// the License.  You may obtain a copy of the License at
//
//     http://www.apache.org/licenses/LICENSE-2.0
//
// Unless required by applicable law or agreed to in writing, software
// distributed under the License is distributed on an "AS IS" BASIS,
// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
// See the License for the specific language governing permissions and
// limitations under the License.

grammar Expr;

start : expr EOF;

expr : NULL                                                         # null
     | ('-'|'!') expr                                               # unaryOpExpr
     |<assoc=right> expr '^' expr                                   # powOpExpr
     | expr ('*'|'/'|'%') expr                                      # mulDivModuloExpr
     | expr ('+'|'-') expr                                          # addSubExpr
     | expr ('<'|'<='|'>'|'>='|'=='|'!=') expr                      # logicalOpExpr
     | expr ('&&'|'||') expr                                        # logicalAndOrExpr
     | '(' expr ')'                                                 # nestedExpr
     | IDENTIFIER '(' lambda ',' fnArgs ')'                         # applyFunctionExpr
     | IDENTIFIER '(' fnArgs? ')'                                   # functionExpr
     | IDENTIFIER                                                   # identifierExpr
     | DOUBLE                                                       # doubleExpr
     | LONG                                                         # longExpr
     | STRING                                                       # string
     | '[' (stringElement (',' stringElement)*)? ']'                # stringArray
     | '[' longElement (',' longElement)*']'                        # longArray
     | '<LONG>' '[' (numericElement (',' numericElement)*)? ']'     # explicitLongArray
     | '<DOUBLE>'? '[' (numericElement (',' numericElement)*)? ']'  # doubleArray
     | '<STRING>' '[' (literalElement (',' literalElement)*)? ']'   # explicitStringArray
     ;

lambda : (IDENTIFIER | '(' ')' | '(' IDENTIFIER (',' IDENTIFIER)* ')') '->' expr
       ;

fnArgs : expr (',' expr)*                                           # functionArgs
       ;

stringElement : (STRING | NULL);

longElement : (LONG | NULL);

numericElement : (LONG | DOUBLE | NULL);

literalElement : (STRING | LONG | DOUBLE | NULL);

NULL : 'null';
LONG : [0-9]+;
EXP: [eE] [-]? LONG;
// DOUBLE provides partial support for java double format
// see: https://docs.oracle.com/javase/8/docs/api/java/lang/Double.html#valueOf-java.lang.String-
DOUBLE : 'NaN' | 'Infinity' | (LONG '.' LONG?) | (LONG EXP) | (LONG '.' LONG? EXP);
IDENTIFIER : [_$a-zA-Z][_$a-zA-Z0-9]* | '"' (ESC | ~ ["])* '"';
WS : [ \t\r\n]+ -> skip ;

STRING : '\'' (ESC | ~ ['])* '\'';
fragment ESC : '\\' (['"\\/bfnrt] | UNICODE) ;
fragment UNICODE : 'u' HEX HEX HEX HEX ;
fragment HEX : [0-9a-fA-F] ;

MINUS : '-' ;
NOT : '!' ;
POW : '^' ;
MUL : '*' ;
DIV : '/' ;
MODULO : '%' ;
PLUS : '+' ;
LT : '<' ;
LEQ : '<=' ;
GT : '>' ;
GEQ : '>=' ;
EQ : '==' ;
NEQ : '!=' ;
AND : '&&' ;
OR : '||' ;

接着再次右键 -> Generate ANTLR Recognizer，发现在 core/gen 目录下生成了一些类：

generation.png

把这些类全部 copy 到 math.expr.antlr 目录下，项目报错就消失了

directory.png

7.debug 配置

可以先看下官方提供的 idea 配置，懒得看也没关系，看下面的配置就行。
首先一定要在 configuration 中打开这个 Add VM options 配置，在 debug 时组件的配置都通过这个来进行

idebug_config.png
以下是我的 broker 配置：

vm options

 -server -Ddruid.service=druid/broker -Xms512m -Xmx512m -XX:MaxDirectMemorySize=400m -XX:+ExitOnOutOfMemoryError -XX:+UseG1GC -Duser.timezone=UTC -Dfile.encoding=UTF-8 -Djava.io.tmpdir=var/tmp -Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager -Ddruid.extensions.loadList="[]" -Ddruid.plaintextPort=8082
#可根据需要变更

main class

org.apache.druid.cli.Main
# 固定配置

Program arguments

server broker
# 固定写法，否则会报错，可根据当前 debug 的不同组件替换成 server historical/ server coordinator 等，解析的代码在 io.airlift.airline.Parser 类的 parse(GlobalMetadata metadata, Iterable<String> params) 方法，可自行 debug

8. Apache Druid，启动！

首先把其他组件先启动 ./apache-druid-0.22.1/bin/start-nano-quickstart**
接着我们把本地的 broker 启动，目前看起来一切正常
broker-start.png
本地浏览器打开locahost:8888，如果能成功出现如下页面，说明你已经成功启动了所有组件
druid-console.png
我们在本地代码（SqlResource 类）中打个断点，然后刷新下页面

debug.png

refresh-page.png

证明请求确实打到了我们的源代码中，接下来还差最后一步，填充数据

9. 填充测试数据

我们下载的安装包中有提供测试数据，目录是 /apache-druid-0.22.1/quickstart/tutorial/wikiticker-2015-09-12-sampled.json.gz
直接在控制台中 load 即可（也可以使用 hdfs 或 kafka 等，这里不再赘述）：

load data.png

好了这样数据也有了，接下来各位就可以开始自行探索 Apache Druid 的秘密了。

以上就是全部内容，如果这篇文章刚好能帮到你，就给我点个赞吧~

Apache druid 环境搭建
0.背景 Apache druid 是一个OLAP的解决方案。支持离线数据和实时数据的写入。具体还需要进行探究。先...
服务器部署TP5项目
服务器环境搭建-tp5 本地环境：Apache： 2.4php：7.3.10mysql：5.7.26 1. 安装A...
hadoop hdfs 有内网、公网ip后，本地调试访问不了集群
问题背景：使用云上的虚拟环境搭建测试集群，导入一些数据，在本地idea做些debug调试，但是发现本地idea连接...
iOS Apache服务器搭建
为了方便开发，这里简单实现在mac环境下搭建用于开发测试的Apache服务器。启动本地的Apache 服务器 m...
iOS Mac本地搭建Apache服务器及重启、停止、关闭开机自
一、搭建本地Apache服务器搭建的目的以及选择Apache服务器的原因二、搭建Apache服务器的前提三、搭...
ROCKETMQ 源码debug 问题集锦
按照这篇文章搭建debug环境ROCKETMQ源码debug环境搭建。出现了如下问题：1、错误: 找不到或无法加载...
Druid-Druid架构分析
基于Apache-Druid-0.17.0 文档参考基于 apache-druid-0.17.0-src.tar....
Druid SQL官方文档
Apache Druid supports two query languages: Druid SQL and ...
2020-04-20
#一、apache的搭建 ####1、下载apache到本地下载地址：https://www.apachelou...
MAMP安装和使用教程
不管web还是PH,我们期初学习的使用都是先搭建本地环境，之前已经记录过MAC电脑自带的Apache环境的配置和...

Apache Druid 本地 debug 环境搭建

说在前面

安装部署

1.端口列表

2.源代码下载

3.安装包下载

4.single-server 配置参考

5.使用安装包其他其他服务

6. 源代码编译

6.1 IDEA 安装 ANTLR v4 grammar plugin 插件

7.debug 配置

8. Apache Druid，启动！

9. 填充测试数据

相关文章

Apache druid 环境搭建

服务器部署TP5项目

hadoop hdfs 有内网、公网ip后，本地调试访问不了集群

iOS Apache服务器搭建

iOS Mac本地搭建Apache服务器及重启、停止、关闭开机自

ROCKETMQ 源码debug 问题集锦

Druid-Druid架构分析

Druid SQL官方文档

2020-04-20

MAMP安装和使用教程

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读