美文网首页
基础概念

基础概念

作者: RedHatMe | 来源:发表于2019-03-15 18:02 被阅读0次

    LIST

    ETL:
    OLAP:
    OLTP:
    BI :
    Pivot Table:
    MPP:
    tableau:

    1.

    OLTP是传统的关系型数据库的主要应用
    OLAP是数据仓库系统的主要应用
    如果说OLTP侧重于对数据库进行增加、修改、删除等日常事务操作,单一维度。元数据维度。
    OLAP(Online Analytics Process,在线分析系统)则侧重于针对宏观问题,
    全面分析数据,多维度的,获得有价值的信息。

    2.

    BI:
    数据分析系统的总体架构分为四个部分:源系统、数据仓库、多维数据库、客户端。

    ·源系统:
    包括现有的所有OLTP系统,搭建BI系统并不需要更改现有系统。

    ·数据仓库:
    数据大集中,通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小时一次,当然是自动的。数据仓库依然建立在关系型数据库上,往往符合叫做“星型结构”的模型。

    ·多维数据库:
    数据仓库的数据经过多维建模,形成了立方体结构。每一个立方体描述了一个业务主题,例如销售、库存或者财务。

    ·客户端:
    好的客户端软件可以把多维立方体中的信息丰富多彩地展现给用户。

    3.

    对称多处理器结构(SMP:Symmetric Multi-Processor)
    非一致存储访问结构(NUMA:Non-Uniform Memory Access)
    以及海量并行处理结构(MPP:Massive Parallel Processing)

    4.

    image.png

    MPP架构的系统(Presto/Impala/SparkSQL/Drill等)有很好的数据量和灵活性支持,但是对响应时间是没有保证的

    搜索引擎架构的系统(Elasticsearch等)相对比MPP系统,在入库时将数据转换为倒排索引,采用Scatter-Gather计算模型,牺牲了灵活性换取很好的性能,在搜索类查询上能做到亚秒级响应。但是对于扫描聚合为主的查询,随着处理数据量的增加,响应时间也会退化到分钟级。

    预计算系统(Druid/Kylin等)则在入库时对数据进行预聚合,进一步牺牲灵活性换取性能,以实现对超大数据集的秒级响应。

    Druid is partially inspired by existing analytic data stores such as Google's BigQuery/Dremel, Google's PowerDrill, and search infrastructure.

    5.

    Tableu 高效展示图表

    引用:
    https://zhuanlan.zhihu.com/p/38767561
    https://www.zhihu.com/question/29478254
    https://blog.cloudera.com/blog/2013/02/big-datas-new-use-cases-transformation-active-archive-and-exploration/

    相关文章

      网友评论

          本文标题:基础概念

          本文链接:https://www.haomeiwen.com/subject/clmqmqtx.html