数据仓库的特点
数据仓库具有以下特征:
- 面向主题
- 集成
- 时变
- 非易失性
面向主题
数据仓库以主题为导向,因为它提供有关主题的信息,而不是公司正在进行的操作。 这些主题可以是销售,营销,分发等。
数据仓库从不关注正在进行的操作。 相反,它强调建模和分析数据以供决策 。 它还通过排除无助于支持决策过程的数据,提供围绕特定主题的简单而简洁的视图。
集成
在数据仓库中,集成意味着为来自不同数据库的所有类似数据建立公共测量单位。 数据还需要以通用和普遍接受的方式存储在Datawarehouse中。
数据仓库是通过集成来自各种来源的数据(如大型机,关系数据库,平面文件等)而开发的。此外,它必须保持一致的命名约定,格式和编码。
集成有助于有效分析数据。 必须确保命名约定,属性度量,编码结构等的一致性。 请考虑以下示例:
图片.png在上面的示例中,有三个不同的应用程序标记为A,B和C.存储在这些应用程序中的信息是Gender,Date和Balance。 但是,每个应用程序的数据都以不同的方式存储。
- 在应用程序A中,性别字段存储逻辑值,如M或F.
- 在应用B中,性别字段是数值,
- 在Application C应用程序中,性别字段以字符值的形式存储。
- 日期和余额的情况也是如此
转换和清理过程之后,所有这些数据都以通用格式存储在数据仓库中。
时变
与操作系统相比,数据仓库的时间范围非常广泛。 在数据仓库中收集的数据在特定时期内被识别,并从历史角度提供信息。 它包含显式或隐式的时间元素。
Datawarehouse数据显示时间差异的一个地方是记录键的结构。 DW中包含的每个主键都应该隐式或显式地包含时间元素。比如日期,周月等
时间差异的另一个方面是,一旦将数据插入仓库,就无法更新或更改。
非易失性
数据仓库也是非易失性的,意味着在输入新数据时不会删除先前的数据。
数据是只读的并定期刷新。 这也有助于分析历史数据并了解发生的情况和发生时间。 它不需要事务处理,恢复和并发控制机制。
在数据仓库环境中,省略了在操作应用程序环境中执行的删除,更新和插入等活动。 在数据仓库中只执行两种类型的数据操作
- 数据加载
- 数据访问
这里是Application和Data Warehouse之间的一些主要区别
运营应用 | 数据仓库 |
---|---|
必须对复杂程序进行编码,以确保数据升级过程保持最终产品的高度完整性。 | 由于不会数据更新,因此不会发生此类问题。 |
数据以标准化形式放置,以确保最小的冗余。 | 数据不以标准化形式存储。 |
支持事务,数据恢复,回滚和解决死锁非常复杂 | 相对简单的技术。 |
数据仓库架构
Datawarehouse架构主要有三种类型:
- 单层架构
单层的目标是最小化存储的数据量。 此目标是删除数据冗余。 在实践中并不经常使用。
- 双层架构
双层架构将物理可用的源和数据仓库分开。 不可扩展,也不支持大量最终用户。 由于网络限制,它还存在连接问题。
- 三层架构
这是使用最广泛的架构。
它由顶层,中层和底层组成。
底层: Datawarehouse服务器的数据库作为底层。 它通常是关系数据库系统。 使用后端工具清理,转换数据并将其加载到此层中。
中间层:数据仓库中的中间层是使用ROLAP或MOLAP模型实现的OLAP服务器。 对于用户,此应用程序层提供数据库的抽象视图。 该层还充当最终用户和数据库之间的中介。
顶级:顶层是前端客户端层。 顶层是您连接并从数据仓库中获取数据的工具和API。 它可以是查询工具,报告工具,托管查询工具,分析工具和数据挖掘工具。
Datawarehouse组件
图片.png数据仓库基于RDBMS服务器,该服务器有中央信息存储库及一些关键组件,使整个环境可管理和可访问
数据仓库主要有五个组件:
数据仓库数据库
中央数据库是数据仓库环境的基础。 该数据库是在RDBMS技术上实现的。 尽管如此,传统的RDBMS系统针对事务数据库处理而非数据仓库进行了优化,这种实现受到限制。 例如,特殊查询,多表连接,聚合是资源密集的,会降低性能。
因此,数据库的替代方法如下:
- 在数据仓库中,并行部署关系数据库以实现可扩展性。 并行关系数据库还允许在各种多处理器配置或大规模并行处理器上共享内存或无共享模型。
- 新的索引结构用于绕过关系表扫描并提高速度。
- 使用多维数据库(MDDB)来克服由于关系数据模型的任何限制。 示例:Oracle的Essbase。
获取,清理和转换工具(ETL)
数据源,转换和迁移工具用于执行所有转换, 它们也称为提取,转换和加载(ETL)工具。
他们的功能包括:
- 根据监管规定对数据进行匿名化。
- 消除不需要的数据
- 搜索和替换来自不同来源的数据的通用名称和定义。
- 计算摘要和派生数据
- 如果缺少数据,使用默认值填充。
- 去重。
这些Extract,Transform和Load工具可以生成定期更新数据仓库中数据的cron作业,后台作业,Cobol程序,shell脚本等。
这些ETL工具必须应对数据库和数据异构性的挑战。
参考资料
- python测试开发项目实战-目录
- python工具书籍下载-持续更新
- python 3.7极速入门教程 - 目录
- 讨论qq群630011153 144081101
- 原文地址
- 本文涉及的python测试开发库 谢谢点赞!
- [本文相关海量书籍下载](https://github.com/china-testing/python-api-tesing/blob/master/books.md
- http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html
元数据
元数据是关于定义数据仓库的数据的数据。 它用于构建,维护和管理数据仓库。
在数据仓库体系结构中,元数据在指定数据仓库数据的来源,用法,值和功能时起着重要作用。 它还定义了如何更改和处理数据。它与数据仓库紧密相连。
例如,销售数据库中的一行可能包含:
4030 KJ732 299.90
在没有Meta的情况系是毫无意义的数据。
Model number: 4030
Sales Agent ID: KJ732
Total sales amount of $299.90
元数据有助于回答以下问题
- 数据仓库包含哪些表,属性和键?
- 数据来自哪里?
- 重新加载数据的次数是多少?
- 清理采用了哪些转变?
元数据可以分为以下几类:
- 技术元数据 :此类元数据包含有关数据仓库设计人员和管理员使用的仓库的信息。
- 业务元数据:这种元数据包含详细信息,为最终用户提供了理解存储在数据仓库中的信息的方式。
查询工具
数据仓库的主要目标之一是为企业提供信息以做出战略决策。 查询工具允许用户与数据仓库系统进行交互。
这些工具分为四类:
- 查询和报告工具
- 应用开发工具
- 数据挖掘工具
- OLAP工具
1.查询和报告工具:
查询和报告工具可以进一步分为
- 报告工具
- 管理查询工具
报告工具:报告工具可以进一步分为生产报告工具和桌面报告编写器。
- 报告编写者:这种报告工具是为最终用户进行分析而设计的工具。
- 生产报告:这种工具允许组织生成定期的运营报告。 它还支持大批量批量作业,如打印和计算。 一些流行的报告工具:Brio,Business Objects,Oracle,PowerSoft,SAS Institute。
托管查询工具:
这种访问工具通过在用户和数据库之间插入元层,帮助最终用户解决数据库,SQL和数据库结构中的障碍。
2.应用程序开发工具:
有时内置的图形和分析工具无法满足组织的分析需求。 在这种情况下,使用应用程序开发工具开发自定义报告。
3.数据挖掘工具:
数据挖掘是通过挖掘大量数据来发现有意义的新关联,模式和趋势的过程。 数据挖掘工具用于自动完成此过程。
4. OLAP工具:
这些工具基于多维数据库的概念。 它允许用户使用精细复杂的多维视图分析数据。
数据仓库总线架构
数据仓库总线确定仓库中的数据流。 数据仓库中的数据流可以分为流入,上流,下流,流出和元流。
在设计数据总线时,需要考虑数据集市中的共享维度和事实。
数据集市
数据集市是一个访问层,用于将数据输出给用户。 它作为大型数据仓库的选项提供,因为它需要更少的时间和金钱来构建。 但是,没有数据集市的标准,定义因人而异。
简而言之,Data mart是数据仓库的子集。 数据集市用于为特定用户组创建的数据分区。
数据集市可以在与Datawarehouse相同的数据库中创建,也可以在物理上独立的数据库中创建。
数据仓库架构最佳实践
要设计数据仓库架构,您需要遵循以下给定的最佳实践:
- 使用为信息检索而优化的数据模型,可以是维模式,非规范化或混合方法。
- 需要确保快速准确地处理数据。 与此同时,将数据合并到单一版本。
- 仔细设计数据仓库的数据采集和清理过程。
- 设计MetaData架构,允许在数据仓库的组件之间共享元数据
- 当信息检索需要位于数据抽象金字塔底部附近或需要访问多个操作源时,请考虑实施ODS模型。
- 应该确保数据模型是集成的,而不仅仅是整合。 在这种情况下,您应该考虑3NF数据模型。 它也是获取ETL和数据清理工具的理想选择
摘要:
- 数据仓库是一个信息系统,包含来自单个或多个来源的历史和可交换数据。
- 数据仓库以主题为导向,因为它提供有关主题的信息,而不是组织的持续运营。
- 在数据仓库中,集成意味着为来自不同数据库的所有类似数据建立通用度量单位
- 数据仓库也是非易失性的,意味着在输入新数据时不会删除先前的数据。
- 数据仓库是时变的,因为DW中的数据具有高保质期。
- Datawarehouse有5个主要组件。 1)数据库2)ETL工具3)元数据4)查询工具5)DataMarts
- 这些是查询工具的四大类1.查询和报告,工具2.应用程序开发工具,3。数据挖掘工具4. OLAP工具
- 数据源,转换和迁移工具用于执行所有转换和摘要。
- 在数据仓库体系结构中,元数据在指定数据仓库数据的来源,用法,值和功能时起着重要作用。
网友评论