多维分析后台实践 3：维度排序压缩

作者: 小黄鸭呀 | 来源:发表于2021-01-23 13:29 被阅读0次

多维分析后台实践 3：维度排序压缩
[魅族]大数据多维分析引擎在MEIZU的实践
枚举维度与二值维度切片的优化
多维分析后台实践 1：基础宽表
多维分析后台实践 2：数据类型优化
一些命令超基本用法
常用SQL记录[随时更新]
图片压缩上传
2018-08-09
Aggrid使用后台排序（自定义排序）

【摘要】

用实例、分步骤，实践目标

本期目标，是在完成数据类型转化基础上，实现维度排序压缩，进一步提升计算速度。

实践的步骤：

1、准备基础宽表：修改上期的代码，完成维度排序压缩存成新组表。

2、访问基础宽表：上期代码不必修改，直接应用于新组表。

3、新增数据追加：每日新增业务数据追加，每月重新排序重整。要尽可能不影响访问基础宽表的性能，同时减小每日新增数据所需要的时间。

本期样例宽表不变，依然为 customer 表。从 Oracle 数据库中取出宽表数据的 SQL 语句是 select * from customer。执行结果如下图：

假设当天日期是 2021-01-12，则取出当日新增数据的 SQL 是：

select * from customer where begin_date=to_date('2021-01-12','yyyy-mm-dd')

多维分析计算的目标也不变，用下面 Oracle 的 SQL 语句表示：

select department_id,job_id,to_char(begin_date,'yyyymm') begin_month ,sum(balance) sum,count(customer_id) count

from customer

where department_id in (10,20,50,60,70,80)

and job_id in ('AD_VP','FI_MGR','AC_MGR','SA_MAN','SA_REP')

and begin_date>=to_date('2002-01-01','yyyy-mm-dd')

and begin_date<=to_date('2020-12-31','yyyy-mm-dd')

and flag1='1' and flag8='1'

group by department_id,job_id,to_char(begin_date,'yyyymm')

准备宽表

维度排序压缩：有序列存。列存是指列式存储，集算器新建组表时，默认列存。

有序是指字段值物理有序存储，也就是用维度字段排序后存入组表。用于排序的维度字段顺序非常关键，要将重复度高的维度排在前面。

本例的维度包括：department_id,job_num,employee_id,begin_date,customer_id。其中，部门编号 department_id 总数最少（事实表中只出现 11 个部门），所以重复度最高。其他字段中，job_num,employee_id,begin_date,customer_id 重复度依次降低。

同时，考虑实际应用中，分组字段出现的情况也和重复度基本一致，所以排序的字段顺序可以确定为：department_id,job_num,employee_id,begin_date,customer_id。

我们用数据库来做排序。示例如下：

select department_id,job_id,employee_id,begin_date,customer_id,first_name,last_name,phone_number,job_title,balance,department_name,flag1,flag2,flag3,flag4,flag5,flag6,flag7,flag8

from customer order by department_id,job_id,employee_id,begin_date,customer_id。

执行结果如图：