美文网首页数据仓库数据科学家大数据产品经理的自用干活
企业大数据平台仓库架构建设思路(李金波)

企业大数据平台仓库架构建设思路(李金波)

作者: 姜小明同学 | 来源:发表于2016-09-10 17:14 被阅读180次

1 总体思路

新环境下的数据应用特征

关键词

安全、透明

大数据平台特征

  • 更强大的计算和存储能力
  • 多样的编程接口和框架
  • 丰富的数据采集通道
  • 各种安全和管理措施

仓库架构设计原则

  • 自下而上+自上而下;
  • 高容错性;
  • 数据质量监控贯穿整个数据流程;
  • 不怕数据冗余,利用存储换应用;

2 模型设计

维度建模 OR 实体关系建模

  • 维度建模
    简单,事实事务分析,适合业务报表和BI。
  • 实体关系建模
    复杂,打散数据,适合复杂数据内容(实体)的深度挖掘。

星型模型 AND 雪花模型

企业中二者并存,转化为星型模型可以减少计算和存储。

数据分层

上下分三层:

  • 集市层(用)
  • 中间层(通)
  • 基础数据层(存)

流式数据以保证时效性。

基础数据层

数据采集、数据清洗、数据归类、数据结构化、数据规范化。

中间层

  • 围绕实体打通行为(join)
  • 从行为抽象关系
  • 冗余是个好手段(事实表冗余部分维度信息来提高计算)

集市层

集市之间垂直构建。
集市层深度挖掘数据价值,集市层能够快速试错。

流式数据集

  • 需求驱动
  • 包含事实和维度
  • 结构更扁平(介于成本,不会涉及中间层)

3 数据架构

数据采集

结构化数据采集

全量采集
增量采集(CDC)
实时采集

日志结构化

UDF、SerDes、

非结构化数据特征提取

视频图片语音文本标签(一般在数仓体系之外)。

数据服务

数据服务化

统计服务(sum销售总值)、分析服务(分析流式几率)、标签服务(有车、有孩标签)。

架构设计中一些实用的点

  • 巧用虚拟节点
  • 强制分区
  • 计算框架应用
  • 优化关键路径

4 数据治理

内容建设
管理(元数据、保障)
保障
数据质量(事前、事中、时候)
数据生命周期管理

相关文章

网友评论

    本文标题:企业大数据平台仓库架构建设思路(李金波)

    本文链接:https://www.haomeiwen.com/subject/digbjttx.html