什么是数据集市?
数据集市专注于组织的单个功能区域,并包含存储在数据仓库中的数据子集。
数据集市是数据仓库的精简版本,旨在供组织中的特定部门,单位或用户组使用。例如,营销,销售,人力资源或财务。它通常由组织中的单个部门控制。
与数据仓库相比,数据集市通常仅从少数几个来源获取数据。与Datawarehouse相比,数据集市规模小,灵活性更高。
为什么需要数据集市?
- 由于减少了数据量,Data Mart有助于增强用户的响应时间
- 它可以轻松访问经常请求的数据。
- 与企业Datawarehouse相比,数据集市更易于实施。与此同时,与实施完整数据仓库相比,实施数据集市的成本肯定较低。
- 与数据仓库相比,数据集市更加灵活。如果型号发生变化,由于尺寸较小,可以更快地构建数据集市。
- Datamart由单个Subject Matter Expert定义。相反,数据仓库由来自各个领域的跨学科SME定义。因此,与Datawarehouse相比,数据集市更容易改变。
- 数据已分区,并允许非常精细的访问控制权限。
- 数据可以分段并存储在不同的硬件/软件平台上。
数据集市的类型
数据集市有三种主要类型:
- 依赖:依赖数据集市是通过直接从运营,外部或两个来源提取数据来创建的。
- 独立:无需使用中央数据仓库即可创建独立数据集市。
- 混合:此类数据集市可以从数据仓库或操作系统获取数据。
依赖数据集市
依赖数据集市允许从单个数据仓库中获取组织的数据。它提供了集中化的好处。如果需要开发一个或多个物理数据集市,则需要将它们配置为依赖数据集市。
依赖数据集市可以以两种不同的方式构建。用户可以根据需要访问数据集市和数据仓库,或者访问仅限于数据集市。第二种方法不是最优的,因为它有时被称为数据垃圾场。在数据垃圾场中,所有数据都以公共源开头,但它们被废弃,并且大多数都是废弃的。
![](https://img.haomeiwen.com/i12713060/5a508099601511e2.png)
独立数据集市
在不使用中央数据仓库的情况下创建独立数据集市。这种数据集市是组织内小型团体的理想选择。
独立数据集市既没有与企业数据仓库的关系,也没有与任何其他数据集市的关系。在独立数据集市中,数据是单独输入的,其分析也是自主执行的。
独立数据集市的实施与构建数据仓库的动机是对立的。首先,您需要一致的,集中的企业数据存储,可以由需要不同信息的不同兴趣的多个用户进行分析。
![](https://img.haomeiwen.com/i12713060/0e6aa66f9071b598.png)
混合数据集市:
混合数据集市结合了来自数据仓库的来源。当您需要临时集成时,这可能会有所帮助,例如在将新组或产品添加到组织之后。
它最适合任何组织的多个数据库环境和快速实施周转。它还需要最少的数据清理工作。 Hybrid Data mart还支持大型存储结构,最适合于以小型数据为中心的应用程序。
![](https://img.haomeiwen.com/i12713060/a32a7b55c729527d.png)
实施Datamart的步骤
实施数据集市是一个有益但复杂的过程。以下是实施数据集市的详细步骤:
![](https://img.haomeiwen.com/i12713060/8bbb8916a9173252.png)
设计
设计是数据集市实施的第一阶段。它涵盖了启动数据集市请求与收集有关需求信息之间的所有任务。最后,我们创建了数据集市的逻辑和物理设计。
设计步骤涉及以下任务:
- 收集业务和技术要求并识别数据源。
- 选择适当的数据子集。
- 设计数据集市的逻辑和物理结构。
可以根据以下标准对数据进行分区:
- 日期
- 业务或功能单位
- 地理
- 以上任意组合
可以在应用程序或DBMS级别对数据进行分区。建议在应用程序级别进行分区,因为它允许每年不同的数据模型随着业务环境的变化而变化。
建设
这是第二阶段的实施。它涉及创建物理数据库和逻辑结构。
此步骤涉及以下任务:
实现早期阶段设计的物理数据库。例如,创了表,索引,视图等数据库模式对象。
需要一个关系数据库管理系统来构建数据集市。 RDBMS具有数据集市成功所需的若干功能。
- 存储管理:RDBMS存储和管理数据以创建,添加和删除数据。
- 快速数据访问:使用SQL查询,您可以根据特定条件/过滤器轻松访问数据。
- 数据保护:RDBMS系统还提供了一种从系统故障中恢复的方法,例如电源故障。它还允许从磁盘故障中恢复这些备份中的数据。
- 多用户支持:数据管理系统提供并发访问,允许多个用户访问和修改数据,而不会干扰或覆盖其他用户所做的更改。
- 安全性:RDMS系统还提供了一种管理用户对对象和某些类型操作的访问的方法。
填充:
填充步骤涉及以下任务:
- 源数据到目标数据映射
- 提取源数据
- 对数据进行清理和转换操作
- 将数据加载到数据集市中
- 创建和存储元数据
可以使用ETL(提取变换加载)工具完成这些填充任务。此工具允许您查看数据源,执行源到目标映射,提取数据,转换,清理数据并将其加载回数据集市。
在此过程中,该工具还会创建一些与数据来源相关的元数据,例如数据的来源,最近的数据,对数据进行的更改类型以及完成的摘要级别。
访问
涉及使用数据:查询数据,创建报告,图表和发布数据。最终用户向数据库提交查询并显示查询结果
访问步骤需要执行以下任务:
- 设置一个元数据层,将数据库结构和对象名称转换为业务术语。这有助于非技术用户轻松访问数据集市。
- 设置和维护数据库结构。
- 如果需要,设置API和接口
您可以使用命令行或GUI访问数据集市。 GUI是首选,因为它可以轻松生成图形,并且与命令行相比,用户友好。
管理
涵盖管理任务,例如:
- 正在进行的用户访问管理。
- 系统优化和微调以实现增强的性能。
- 在数据集市中添加和管理新数据。
- 规划恢复方案并在系统出现故障时确保系统可用性。
您可以使用GUI或命令行进行数据集市管理。
实施数据集市的最佳实践
- 数据集市的来源应该是部门
- 应在短时间内测量数据集市的实施周期,即数周而不是数月或数年。
- 由于数据集市实施可能很复杂,因此让所有利益相关方参与规划和设计阶段非常重要。
- 数据集市硬件/软件,网络和实施成本应在您的计划中准确预算
- 即使数据集市是在同一硬件上创建的,它们也可能需要一些不同的软件来处理用户查询。应评估额外的处理能力和磁盘存储要求,以便快速响应用户
- 数据集市可能位于与数据仓库不同的位置。这就是为什么确保它们具有足够的网络容量来处理将数据传输到数据集市所需的数据量非常重要的原因。
- 实施成本应预算Datamart加载过程所需的时间。加载时间随着变换复杂性的增加而增加。
参考资料
- python测试开发项目实战-目录
- python工具书籍下载-持续更新
- python 3.7极速入门教程 - 目录
- 讨论qq群630011153 144081101
- 原文地址
- 本文涉及的python测试开发库 谢谢点赞!
- 本文相关海量书籍下载
数据集市的优点和缺点
优点
- 数据集市包含组织范围数据的子集。此数据对组织中的特定人群非常有用。
- 它是数据仓库的经济高效的替代方案,可能需要很高的构建成本。
- Data Mart允许更快地访问数据。
- Data Mart易于使用,因为它专为满足用户的需求而设计。因此,数据集市可以加速业务流程。
- 与数据仓库系统相比,数据集市需要更少的实施时间。实现数据集市更快,因为您只需要集中数据的唯一子集。
- 它包含历史数据,使分析师能够确定数据趋势。
缺点
- 很多时候,企业创建了太多不同且不相关的数据集市而没有太多的好处。它可能成为维持的一大障碍。
- Data Mart无法提供公司范围的数据分析,因为它们的数据集有限。
小结
- 数据集市专注于组织的单个功能区域,并包含存储在数据仓库中的数据子集。
- 由于数据量的减少,Data Mart有助于增强用户的响应时间。
- 三种类型的数据集市是1)依赖2)独立3)混合
- 数据集市的重要实施步骤是1)设计2)构建3填充4)访问和5)管理
- 应在短时间内测量数据集市的实施周期,即数周而不是数月或数年。
- 数据集市是数据仓库的经济高效的替代方案,可能需要很高的构建成本。
- 由于数据集有限,Data Mart无法提供公司范围的数据分析。
网友评论