用 Superset 和 Druid 快速打造实时数据分析看板

作者: 程序员赤小豆_gzh同名 | 来源:发表于2023-04-20 23:00 被阅读0次

利用python来对druid进行复杂查询
Druid基础介绍和系统架构
不只是监测，更是可以帮你提升70%运营效率的利器
当 TiDB 与 Flink 相结合：高效、易用的实时数仓
Apache Druid
Superset登录权限自定义开发
Druid:A Real-time Analytical Dat
druid
Druid-高性能实时数据分析数据库
实时数仓|基于Flink1.11的SQL构建实时数仓探索实践

Apache Superset是一款开源的企业级数据可视化和探索平台。它具有直观的界面,丰富的图表与仪表盘类型,并支持大规模数据集,方便进行实时分析与探索。Apache Druid是一款高性能、分布式、低延迟的OLAP数据存储方案。它适用于数据探查和快速数据摘要等场景,能轻松应对PB级数据。

Screenshot 2023-04-21 at 10.59.51 PM.png

本文将介绍如何结合Superset和Druid这两个优秀的开源软件,快速搭建一个实时数据分析看板应用。将二者整合,我们可以轻松实现一个帮助企业快速监控数据、获得数据洞察的智能平台。

一、环境准备

安装 Druid，安装和配置Superset
安装步骤省略，可自行搜索。
添加 Druid 数据源

登录Superset, 选择“数据源”菜单
点击“+ 数据源”按钮,选择“Druid”数据源类型
填写Druid数据源相关信息:
- 名称: Druid数据源名称, 如test_druid
- 主机: Druid Broker主机IP/域名
- 端口:Druid Broker服务端口,默认为8082
- 点击“保存”按钮,Druid数据源添加成功!

二、构建Druid数据表和查询

登录Druid Console, 构建数据表
在Druid Console通过上传数据文件或提供数据流的方式创建数据表
定义复杂的查询
Druid支持丰富的查询类型, 如GroupBy、TopN、Timeseries等...(查询语法示例)

{
  "queryType": "groupBy",
  "dataSource": "wikiticker", 
  "granularity": "all",
  "dimensions": ["page","country"],
  "aggregations": {
    "count": "count"
  },
  "intervals": [
    "2020-01-01/2020-01-02"
  ] 
}

queryType:指定GroupBy查询类型
dataSource:查询的数据源
granularity:聚合粒度,all表示全量数据
dimensions:分组维度
aggregations:聚合指标,这里使用count计数
intervals:时间范围
该查询会按page和country两个维度对wikiticker数据源在2020-01-01至2020-01-02的所有数据进行分组,并统计每个分组的记录数。
Druid通过简洁的JSON配置支持构建复杂的分组、TopN、时间序列等聚合查询。

三、在 Superset 中创建报表