数据仓库规模⼤、周期⻓,⼀些规模⽐较⼩的企业⽤户难以承担。因此,作为快速解决企业当前存在的实际问题的⼀种有效⽅法,独⽴型数据集市成为⼀种既成事实。
数据集市(Data Mart) ,也叫数据市场,数据集市就是满⾜特定的部⻔或者⽤户的需求,按照多维的⽅式进⾏存储,包括定义维度、需要计算的指标、维度的层次等,⽣成⾯向决策分析需求的数据⽴⽅体。
数据集市主要是针对⼀组特定的某个主题域、部⻔或者特殊⽤户需求的数据集合。这些数据需要针对⽤户的快速访问和报表展示进⾏优化,优化的⽅式包括对数据进⾏轻量级汇总,在数据结构的基础上创建索引。
数据集市的⽬标分析过程包括对数据集市的需求进⾏拆分,按照不同的业务规则进⾏组织,将与业务主题相关的实体组织成主题域,并且对各类指标进⾏维度分析,从⽽形成数据集市⽬标说明书。内容包括详细的业务主题、业务主题域和各项指标及其分析维度
数据仓库(Data Warehouse)DW
数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。它为企业提供⼀定的BI(商业智能)能⼒,指导业务流程改进。
数据仓库解决什么问题
数据仓库从⼤的⽅向来说解决三类问题 存储, 快速提取, 跨部⻔应⽤
数据仓库的主要特征
⾯向主题的
集成的
稳定的(不易失的)
时变的(反映历史变化的)
数据仓库与数据库区别
1.数据库与数据仓库的区别实际讲的是OLTP与OLAP的区别:
2.数据仓库的出现,并不是要取代数据库:
数据仓库架构
⼤数据系统需要数据模型⽅法来帮助更好地组织和存储数据,以便在性能、成本、效率和质量 之间取得最佳平衡,主流的⽅法是分层架构。
数据仓库的数据来源于不同的源数据,并提供多样的数据应⽤,数据⾃下层流⼊数据仓库后向上层开放应⽤,⽽数据仓库只是中间集成化数据管理的⼀个平台
知名企业的数仓架构:
数据仓库元数据管理
元数据(MetaData),主要记录数据仓库中模型的定义,各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运⾏状态,⼀般会通过元数据质量库(Metadata Repository)来统⼀地存储和管理元数据,其主要⽬的是使数据仓库的设计、部署、操作和管理能达成协同和⼀致,保证数据质量。
元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使⽤和维护。
构建数据仓库的主要步骤之⼀是ETL,这时元数据将要发挥重要的作⽤,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新规则、数据导⼊历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据⾼效地构建数据仓库。
⽤户在使⽤数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改变数据清洗⽅法,控制出错的查询以及安排备份等。
元数据分为技术元数据和业务元数据
1.技术元数据为开发和管理数据仓库的IT⼈员使⽤, 描述了与数据仓库开发、管理和维护相关的数据,包含数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等
2.业务元数据为管理层和业务分析⼈员服务,从业务⻆度描述数据包括商务术语、数据仓库中有什么数据、数据的位置和数据的可⽤性等
元数据不仅定义了数据仓库中数据的模式、来源、抽取和转换规则等、⽽且是整个数据仓库系统运⾏的基础,它把数据仓库系统中各个松散的组件联系起来,组成了⼀个有机的整体。
数据治理
数据是企业 核⼼资产,数据治理能成就企业(特别是银⾏)的未来。它涉及数据质量、数据管理、数据政策、商业过程管理、⻛险管理等多个领域。
脏数据的种类
数据治理原则
网友评论