美文网首页AI-大数据数据仓库建设数据中台
【知识】数仓的技术框架和意义

【知识】数仓的技术框架和意义

作者: 笔名辉哥 | 来源:发表于2021-02-25 13:27 被阅读0次
数据仓库2.png

一、数仓的意义

  1. 为什么要有数据仓库
    说起数据仓库存在的意义就必须得说企业面临的数据问题。

     结构复杂
     数据脏乱
     理解困难
     缺少历史
     总结一句话就是:多源异构、脏乱差的数据现象。
    
    
  2. 数据仓库的价值体现

     效果
     诊断
     预警
    
    

二、数据体系

  1. 数据体系构成


    在这里插入图片描述
  2. 常见技术架构
    偏离线:适用于业务初期,迅速形成数仓雏形,快速交付满足业务


    在这里插入图片描述

    离线+实时:适合业务中后期,形成扩展性极强的技术架构


    在这里插入图片描述

    偏实时:适合特殊业务,例如:广告、风控

三、数仓分层

  1. 数仓分层&主题
    数据缓冲层:数据暂存区,只保留每天的增量数据
    数据明细层:全量数据区,采用全量表、快照表、拉链表等保存全量数据,并做基础数据的归一化处理和模型的拆解、合并,多采用ER建模
    数据衍生层:数据聚合区,多用于轻度汇总以及衍生计算,产出标准化数据,屏蔽上游业务变更对下游的影响。
    数据集市层:数据集成区,基于角色+场景构建场景化数据模型。
    数据应用层:数据交付区,提供数据服务以及数据产品的数据。

  2. 建模流派的对比

    ER模型
    规范性较好,冗余小,数据集成和数据一致性方面得到重视,适用于较为大型的企业级数据规划,但缺点是业务形态需要较为稳定,且需要全面了解企业业务、数据和关系,对于建模人员要求很高,实施周期非常长。具有代表性的就是TD的FS-LDM模型。

    维度建模
    相对能快速上手,快速交付,但缺点是冗余会较多。具有普适性,适合业务形态不太稳定的阶段。

  3. 数据管理的挑战

    命名规范&口径管理
    命名规范
    词根的设计,主谓宾、定状补
    表命名
    字段命名
    
    

    3.1口径管理
    新客数:交易新客、流量新客

    规范口径定义流程
    记录常规口径
    口径增删改的检测机制(语义分析)
    推广口径
    
    

    3.2 数据质量

    质量监控大盘
    
    事前
    规范
    测试
    事后
    数据监控
    异常值
    指标
    同环比
    方差、标准差
    时间序列
    

相关文章

  • 【知识】数仓的技术框架和意义

    一、数仓的意义 为什么要有数据仓库说起数据仓库存在的意义就必须得说企业面临的数据问题。 结构复杂 数据脏乱 理解困...

  • 美团实时数仓建设

    实时数仓和传统数仓的对比 实时数仓和传统数仓的对比主要可以从四个方面考虑:●第一个是分层方式,离线数仓为了考虑到效...

  • SSH框架

    1.概述 SSH框架:Struts框架,基于MVC模式的应用层框架技术。Hibernate: 基于持久层的框架(数...

  • Kafka Connect For MySQL 实现增量数据同步

    前言 最近公司需要搭建基于 Flink 框架的实时数仓,为了保证数仓的稳定性,决定引用消息中间件 Kafka 。K...

  • 企业何时进行数据治理才是最佳时机

    找准数据治理的切入点,是关乎数据治理成败的关键。如果将数仓建设分为数仓雏形阶段、数仓迭代阶段和能力沉淀阶段,数据治...

  • 数据部门起步阶段需要建立数仓么?

    之前我写了一篇关于数据中台和数仓的关系 的文章,里面理清了数仓和中台的关系。后面我了解到更通用的技术词汇去表达数据...

  • 今日份打卡 134/365

    技术文章基于Flink构建实时数仓离线数仓已经很常见文中展示了通过Flink的使用,取代原有Hive模块,取得实时...

  • HAWQ取代传统数仓实践

    1.为什么选择HAWQ 2.HAWQ技术解析(二) —— 安装部署 HAWQ取代传统数仓实践(十一)——维度表技术...

  • 数仓分层

      数仓分层的理论不仅是一种数据仓库的建设思想,对大数据的统计分析过程设计同样具有指导意义。  数仓分层的理论有很...

  • 大数据入门(一)—— 数据仓库(数仓)基本概念

    前言: 最近做需求的时候,涉及到了数仓相关的知识。简单介绍下数仓的一些基本概念。以及,了解下大数据开发的一些基本流...

网友评论

    本文标题:【知识】数仓的技术框架和意义

    本文链接:https://www.haomeiwen.com/subject/frzyfltx.html