什么是数据仓库?
数据仓库收集和管理来自不同来源的数据,以提供有意义的业务洞察。
它是一组数据,与操作系统分开,支持公司的决策。 在数据仓库中,数据是从历史角度存储的。
仓库中的数据是从多个功能单元中提取的。 对其进行检查,清理,然后与数据仓库系统集成。
什么是数据集市?
数据集市是数据仓库的简单形式。 它专注于单一主题。 Data Mart仅从少数几个来源获取数据。 这些来源可能是中央数据仓库,内部操作系统或外部数据源。
数据集市是一个索引和提取系统。 它是数据仓库的重要子集。 它以主题为导向,旨在满足特定用户群的需求。 数据集市快速且易于使用,因为它们使用少量数据。
![](https://img.haomeiwen.com/i12713060/ecd354a0ae0bad9c.png)
参考资料
- python测试开发项目实战-目录
- python工具书籍下载-持续更新
- python 3.7极速入门教程 - 目录
- 讨论qq群630011153 144081101
- 原文地址
- 本文涉及的python测试开发库 谢谢点赞!
- 本文相关海量书籍下载
- https://www.tutorialspoint.com/sqoop/sqoop_installation.htm
- https://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html
- https://www.softwaretestinghelp.com/top-4-etl-testing-tools/
数据仓库和数据集市之间的差异
参数 | 数据仓库 | 数据库 |
---|---|---|
定义 | 数据仓库是从公司内不同组织或部门收集的大型数据存储库。 | 数据集市是数据仓库的唯一子类型。 它旨在满足特定用户组的需求。 |
用法 | 它有助于做出战略决策。 | 它有助于为业务做出战术决策。 |
目的 | 数据仓库的主要目标是在某个时间点提供业务的集成环境和连贯的图像。 | 数据集市主要用于部门级别的业务部门。 |
设计 | 数据仓库的设计过程非常困难。 | 数据集市的设计过程很简单。 |
设计 | 可能会或可能不会在维模型中使用。 但是,它可以提供尺寸模型。 | 它使用开始模式专注于维度模型。 |
数据处理 | 数据仓库包括公司的大面积,这就是为什么需要很长时间来处理它。 | 数据集市易于使用,设计和实施,因为它只能处理少量数据。 |
焦点 | 数据仓库广泛关注所有部门。 它甚至可以代表整个公司。 | 数据集市是面向主题的,它在部门级别使用。 |
数据类型 | 与数据集市相比,存储在数据仓库中的数据始终是详细的。 | 数据集市是为特定用户组构建的。 因此,数据短而有限。 |
学科领域 | 数据仓库的主要目标是在某个时间点提供业务的集成环境和连贯的图像。 | 大多只持有一个主题领域 - 例如,销售数字。 |
数据存储 | 旨在存储企业范围的决策数据,而不仅仅是营销数据。 | 用于优化接入层性能的维度建模和星型模式设计。 |
数据类型 | 严格执行时间差异和非易失性设计。 | 主要包括合并数据结构,以满足主题领域的查询和报告需求。 |
数据值 | 从最终用户的角度来看只读。 | 交易数据,无论是直接从数据仓库提供的粮食。 |
范围 | 数据仓库更有帮助,因为它可以从任何部门获取信息。 | 数据集市包含公司特定部门的数据。可能有单独的数据集市用于销售,财务,营销等。使用有限 |
资源 | 在数据仓库中,数据来自许多来源。 | 在Data Mart中,数据来自极少数来源。 |
尺寸 | 数据仓库的大小可以从100 GB到1 TB +。 | 数据集市的大小小于100 GB。 |
实施时间 | 数据仓库的实施过程可以从几个月延长到几年。 | 数据集市的实施过程仅限于几个月。 |
摘要:
- 数据仓库是技术和组件的混合体,允许战略性地使用数据。
- 数据集市是数据仓库的简单形式。 它专注于单一主题。
- 数据仓库中的数据汇集自多个来源,以提供准确及时的信息。
- Datamart面向主题,旨在满足特定用户群的需求。
- 数据仓库包含来自组织所有部门的数据,不断更新数据以删除冗余数据。
- 数据集市主要用于部门级别的业务部门。
- 数据仓库的实施过程可以从几个月延长到几年。
- 数据集市的实施过程仅限于几个月。
- 与数据集市相比,存储在数据仓库中的数据始终是详细的。
- 数据集市是为特定用户组构建的。 因此,数据短而有限。
网友评论