浅谈数据仓库
前言:数据挖掘的一个重要基础就是大量的、高质量的数据,数据的采集和收集是数据挖掘基础且重要的一步。由于数据本身的类型多样,具有异构性和多维度、复杂等特性,需要一种有组织的、高效的数据存取结构,集成存储,所以诞生了数据仓库。
一数据库和数据仓库
根据以上的对比,我们总结数据仓库的特点如下:
1面向主题的。按照需要支持的决策主题组织数据,将同一主题数据进行存储。
2集成的。将分散在不同数据库中的异构的、类型多样的、彼此相互独立的数据进行整合,收集。
3相对稳定的。数据库中不再具有实时性的数据,被存储到数据仓库中。
4反应历史变化。数据仓库中数据的时间属性非常重要,可以表达历史变化。满足决策需求。
二数据(库)模型
三设计数据仓库
数据仓库建立过程:
ETL处理的过程:
具体用来进行ETL的工具有很多,我们可以选取几门进行掌握。方便进行ETL处理。
元数据
数据仓库模型的建立采用两种技术,一种是将数据仓库模型构造为多维数组,另外一种是用关系模型存放数据仓库中的数据,并调用关系数据库引擎将数据以多维格式展现给用户。
数据集市与决策支持系统
数据集市中的数据是面向某个特定主题的,且分为两类,第一类:独立型数据集市-直接从传统操作型数据库或外部数据源中获取数据;第二类:依赖型数据类型-从企业数据仓库中获取数据。数据仓库不可能由多个数据集市进行简单合并而产生。
决策支持系统
决策支持的形式可以是数据报告、分析数据和只是发现三个层次。
数据报告:报告数据依赖于数据查询,是最低层次的决策支持。但作为基础,一部分内容报告对任何成功的商业运作都是最为重要的。
分析数据:通常用某种形式的多维数据分析工具来完成。
知识发现:数据挖掘的主要任务是知识发现,但是使用一些复杂的查询和数据分析技术有时能够发现数据中有趣的模式。
四联机分析处理
这里只是简单的介绍数据仓库的一些概念,具体的案例和应用,技术的实现,以后的笔记给出。
2016/9/4
网友评论