美文网首页
数仓的发展与特性

数仓的发展与特性

作者: 升空的焰火 | 来源:发表于2018-12-18 19:38 被阅读0次

    一.何为数仓?

    也就是集成化数据环境,控制数据的流入与流出,本身并不产生和消费数据。

    二.数仓的作用?

    1、管理数据,支持服务调用,为企业提供决策支持。

    2、基本架构图

    三.数仓的数据流程

    1.数据源

    也就是我们的业务产生的数据。一般来源于日志,IOT(前端设备),或者其他的系统。

    2.数据集成

    其实也就是数据收集的过程。大部分web业务的数据收集以API接口和消息队列为主,这个过程应该是业务开发控制。

    3.数据存储

    1.不涉及大数据,一般用关系型数据库mysql,oracle,存储。

    2.大数据环境下。Hbase大数据行数据库,Storm流式处理框架,Flink,Spark大数据系统框架.。

    4.数据清洗

    1..informatica(规则管理平台,华为目前在使用),一种第三方的数据规则管理工具,可以根据配置的规则对数据进行筛选。

    2.利用算法进行筛选。

    5.数据建模

    1.数仓模型建模,也就是我们常常聊得业务模型建模

    2 AI算法建模,基于统计学,概率论等,设计需要的数据模型,并进行自学习管理。(1,监督学  2 ,半监督学  3 ,无监督学)

    6.数据服务

    使用数据,发挥数据价值。

    四.数仓建立的两种模式

    1.kimball模式,自下而上,定制甲方业务,先有业务模型,再有数仓模型。

    2.Inmon模式,自下而上,根据模块功能,建立数仓模型,再决定业务模型。

    一般的互联网公司还是以服务甲方为主,而大企业公司就会选择Inmon模型,研发自己的产品。

    五.数据中台。

    1.一个对数据直接处理的平台。所有对数仓的直接操作,全部由数据中台处理。

    相关文章

      网友评论

          本文标题:数仓的发展与特性

          本文链接:https://www.haomeiwen.com/subject/xoalkqtx.html