美文网首页
2018-12-04

2018-12-04

作者: 啦啦啦_9a5f | 来源:发表于2018-12-04 17:20 被阅读0次

一,数据仓库计数产生的背景

1.1960s:数据采集,数据库创建阶段

  (1)  集中于原始文件的处理

  (2)层次数据库和网状数据库

1970s:关系数据库管理系统

  关系数据模型和关系数据库管理系统

  E-R模型,SQL语言,查询处理和优化,OLTP(恢复和并发技术)

1990s:数据仓库,联机分析处理和数据挖掘

    数据仓库,联机分析处理和数据挖掘,多媒体数据库,Web数据库,Data Stream

二,现有数据库系统的侧重点

现有数据库系统,主要用于事务处理

强调多用户并发环境,数据的一致性,完整性

三,信息化建设的趋势

发展趋势:数据集中化,业务综合化,管理扁平化,决策科学化

四,现有数据库系统处理分析型应用存在的问题

1.数据可信性

(1)数据没有同一时间基准

(2)算法不同

(3)多次抽取,扩大上述两个问题

(4)外部数据进入系统后,失去“身份”

(5)开始时就不是同一个公共的数据源

2.生产率

生产一个企业报表要经过:

(1)获得源数据

(2)定位和分析数据:由于同名不同义,同义不同名,很难准确定位和分析,可能造成进一步的混乱

(3)把数据加工成报告

        要写许多程序,每个程序必须客户化

        程序会涉及公司具有的各种技术

        由于定位数据困难,检索所要的数据时一种很麻烦的事

(4)完成任务需要很长时间

        定位数据+获取数据+集成报告,完成任务所需要时间较长

        每份报告自需求不同,因此每份报告所需要的时间都很长

3.不可能把数据转换成信息

(1)涉及大量应用:存储应用,贷款,信托,而这些应用并未集成

(2)没有足够的历史数据

(3)数据不一致

(4)外部数据和非结构化数据

4.数据动态集成问题

5.历史数据问题

6.数据综合问题:非细节数据,多种程度的综合

五,操作型环境和分析型环境

1.不同需求,要求将操作型环境和分析型环境相分离

(1)在操作型环境中支持分析应用太困难,太复杂

(2)操作型环境不支持域之间的联系,仅仅支持表之间的连接

(3)不同数据环境要求从数据组织和操作上进行工作。

2.两种数据的区别

3.提升现有信息

(1)企业范围内的信息共享

(2)准确,一致的集成数据

(3)面向整个企业和最终用户,针对分析需要,进行数据重组,形成一套全新的,相对完整的数据视图。

4.数据仓库要解决的基本问题

(1)全局范围内统一数据视图

    数据内容:数据完整性,数据准确性,数据一致性

    数据组织:面向分析决策。

(2)数据仓库的建立

    需要针对多个数据源的数据集成

    考虑“重要”的业务分析问题

    选择合适的数据源

    数据仓库系统的建设永无止境

    数据仓库系统的建设是一项工程,同时也是一个过程。

六,什么是数据仓库

1,数据仓库的定义:是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策和信息的全局共享。

2.对数据仓库的理解:

(1)数据仓库用于支持管理和决策,面向分析数据处理,它不同于企业现有的面向交易的操作型数据库

(2)数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据

3.数据仓库的特点

(1)面向主题: 操作型数据库是面向特殊处理任务,进行组织,由各个不同的系统独立维护

                      数据仓库是面向不同的主题域进行组织。一个主题通常于多个操作型信息系统相关

      (i)面向主题的数据组织

              主题:宏观分析领域所涉及的分析对象

              面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整,一致的描述

              采用面向事务进行数据组织特点是:

                    充分考虑企业的部门组织结构和业务活动

                    反映企业内部数据流动情况,业务处理的数据流程

                    与业务处理流程中的单据,票证,文档有良好的对应

                    数据与应用有一定的对应

(2)面向主题的数据组织的特点

          各个主题有完整,一致的信息内容,便于在此基础上做分析处理

          主题之间有重叠的内容,反映主题间的联系

        重叠是逻辑上的,不是物理上的;重叠仅在细节层

        各主题的综合方式不同

        主题域应该具有独立性,完备性

            独立性:有明确界限,数据是否属于该主题

            完备性:对该主题进行分析所涉及的内容均要在主题域内

(3)面向主题数据组织的实现

      (️️i)多个表,公共码键(把各个表统一联系起来),但同一主题的表可存放在不同介质上

      (ii)综合信息,多个层次

      (iii)面向主题数据组织方式独立于数据的事务处理逻辑。即可以支持分析型环境数据,又可用于ODS(操作数据存储)系统

(2)数据仓库的特点:集成的

操作型数据库:面向特殊应用

      每一个数据库面向特定的应用,各类应用之间相互独立

      系统的发展经历一个长期的过程

数据仓库:集成的

  数据仓库中的数据从建立时开始,面向整个企业的分析处理,数据仓库中的数据是已经集成了的,消除了数据的不一致型

  在某个时间点完成设计,实现需要经历一个长期的不断迭代的过程

      (i)消除冲突:不一致,同名异义,异名同义,单位不统一等,需要进行数据清理(因为来源于不同的子系统,与不同的主要逻辑捆绑)

      (ii)数据的综合和计算:可在抽取数据时,也可以在进入DW后

(3)数据仓库的特点:相对稳定的

操作型数据库—实时更新:随时更新数据根据需要进行变化,并不是按照一定周期进行修改

数据仓库—在某个时间点保持不变:定期加载,加载后的数据极少更新,并不意味着数据仓库的数据不更新

                                                一般不修改,只追加;过期限的数据可从DW中移走

                                                对DW,主要是查询DWMS比DBMS要简单

                                                        可不考虑并发控制

                                                      要考虑性能(因为查询数据量大)和界面友好(对高层管理者)       

(4)数据仓库的特点:反映历史变化

操作型数据库:主要关心当前数据

数据仓库:通常关心历史数据

              码键包含时间项

              不断增加新的数据内容

              删去过时的数据

              与时间有关的综合数据:随时间变化而重新组合

七,数据库技术与相关技术的比较和联系

1.数据库技术和数据仓库技术

(1)数据库技术在系统功能和性能需求

      强调的是多用户环境下如何针对并发用户的增删改操作,保证数据的一致性和可恢复性,并发用户的吞吐量为数据库管理系统的重要性能指标

(2)数据仓库技术在系统功能和性能需求

        强调的是大数据量环境下的高效,快速查询,查询的吞吐量为数据仓库管理系统的重要性能指标

2.数据的抽取,转化和加载

3.数据集成是大问题

数据仓库是多个数据源数据的综合

数据必须转换成一个一致的格式

对于一个典型的数据仓库系统建设项目中,数据集成工作通常占到整个系统建设的80%

4.集成困难的原因:

缺乏源数据或者根本不存在

数据质量很差

    存在大量的空缺值

    存在大量的同名异义或者同义异名的问题

语义不一致

八,数据集成的方法:MQS

MQS:Mediated Query System—查询驱动方法

其目标是实现对信息智能,能动的使用

1.Mediator是一个软件模块,实现对数据的抽象与表示,具有相当的智能。

2.Mediator具有某些数据集的知识,为高层应用服务。

3.Mediator本身还可以进一步抽象成MetaMediator,来描述关于Mediator的信息

九,数据仓库的数据集成

十,联邦数据库

1.数据仓库

(1)对于所有数据创建一个备份

(2)基于备份上重构的数据,执行分析查询

2.联邦数据库

(1)从数据源中检索所需要的数据一回答各类查询

十一,数据仓库与联邦数据库

1.数据仓库

(1)不需要冗余数据的拷贝

(2)查询的结果反映所涉及数据的实时情况

(3)安全策略更加方便

2.联邦数据库

(1)分析查询对于事务系统增加了额外的“Load”数据的开销

(2)查询优化很难做得很好

(3)历史数据可能不存在或者不可用

(4)“wrappers”的功能很复杂,需要在分析服务器和数据源系统之间进行沟通

3.在实践中数据仓库方法变得更加普通

(1)更好的性能

(2)更低的复杂度

(3)对于分析来说,缺少部分实时的数据是可以接受的

相关文章

网友评论

      本文标题:2018-12-04

      本文链接:https://www.haomeiwen.com/subject/ofdvcqtx.html