LIST
ETL:
OLAP:
OLTP:
BI :
Pivot Table:
MPP:
tableau:
1.
OLTP是传统的关系型数据库的主要应用
OLAP是数据仓库系统的主要应用
如果说OLTP侧重于对数据库进行增加、修改、删除等日常事务操作,单一维度。元数据维度。
OLAP(Online Analytics Process,在线分析系统)则侧重于针对宏观问题,
全面分析数据,多维度的,获得有价值的信息。
2.
BI:
数据分析系统的总体架构分为四个部分:源系统、数据仓库、多维数据库、客户端。
·源系统:
包括现有的所有OLTP系统,搭建BI系统并不需要更改现有系统。
·数据仓库:
数据大集中,通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小时一次,当然是自动的。数据仓库依然建立在关系型数据库上,往往符合叫做“星型结构”的模型。
·多维数据库:
数据仓库的数据经过多维建模,形成了立方体结构。每一个立方体描述了一个业务主题,例如销售、库存或者财务。
·客户端:
好的客户端软件可以把多维立方体中的信息丰富多彩地展现给用户。
3.
对称多处理器结构(SMP:Symmetric Multi-Processor)
非一致存储访问结构(NUMA:Non-Uniform Memory Access)
以及海量并行处理结构(MPP:Massive Parallel Processing)
4.
image.pngMPP架构的系统(Presto/Impala/SparkSQL/Drill等)有很好的数据量和灵活性支持,但是对响应时间是没有保证的
搜索引擎架构的系统(Elasticsearch等)相对比MPP系统,在入库时将数据转换为倒排索引,采用Scatter-Gather计算模型,牺牲了灵活性换取很好的性能,在搜索类查询上能做到亚秒级响应。但是对于扫描聚合为主的查询,随着处理数据量的增加,响应时间也会退化到分钟级。
预计算系统(Druid/Kylin等)则在入库时对数据进行预聚合,进一步牺牲灵活性换取性能,以实现对超大数据集的秒级响应。
Druid is partially inspired by existing analytic data stores such as Google's BigQuery/Dremel, Google's PowerDrill, and search infrastructure.
5.
Tableu 高效展示图表
引用:
https://zhuanlan.zhihu.com/p/38767561
https://www.zhihu.com/question/29478254
https://blog.cloudera.com/blog/2013/02/big-datas-new-use-cases-transformation-active-archive-and-exploration/
网友评论