美文网首页大数据玩转大数据
ETL系统相关技术和注意事项

ETL系统相关技术和注意事项

作者: 数据僧 | 来源:发表于2019-01-14 13:42 被阅读10次

    需求综合

    需求综合的含义是:收集并且理解所有已知的将会影响ETL系统的需求、现实和约束等。需求的列表可能会很长,但在开始ETL系统开发前,都已经收集到了表中。

    需求一:业务需求

    用户的信息需求。用户用于制定明智的商业抉择所需要的信息内容。因为商业需求直接驱动对数据源的选择以及选择的数据源在ETL系统中转换的结果。
    在项目支持业务需求定义期间,必须维护一个揭示关键性能指标的列表,以及业务用户需要研究某个关键指标为什么发生变化时,所需要的下钻和跨钻目标。

    需求二:合规性

    合规性

    列出所有数据以及最终报表主题需要遵守的法律限制。列出这些数据输入和数据转换的步骤,需要维护“监管链”,现实并且证明最终报表是来自发布的数据源的原始数据。
    对于合规性,我工作还没有这方面严格的要求。

    需求三:数据质量

    数据质量

    需要将那些已经知道的不中意的数据元素记录下来,是否与源系统达成共识以便在获取数据之前进行更正。
    列举数据分析期间发现的那些需要在ETL过程中持续监控和标记的数据元素。

    需求四:安全性

    安全性

    1,对于大多数DW/BI小组来说,安全通畅处于时候考虑的位置且被视为负担而不受欢迎。
    2,应该将合规性列表扩展,使其包含熟知的安全和隐私需求。
    3,数据应该被限制发送给那些需要知道的那些人。
    4,物理备份也需要做安全性的检查。
    5,在需求综合期间,DW/BI小组应该寻求高管层的明确指示,指明DW/BI 系统的那些方面应该运用额外的安全措施。如果没有明确指示,也没有安全管理员参与的时候,使用最小扩散范围。

    需求五:数据集成

    数据集成

    1,对于数据集成来说,我们的最终目标是做出 企业的全景视图
    2,全面的数据集成很难实现,除非企业具有全面的、集中式的主数据管理系统(Master Data Management ,MDM)系统,即使有的话,也仍然可能会有一些重要的数据并没有进入到主 MDM 中。
    3,一致性维度意味着跨不同的数据库系统建立公共维度属性。一致性意味着对公共业务度量达成一致,公共业务度量包括跨不同数据库的关键性能指标KPI,只有这样,才能使用这些数据通过计算差异和比率开展数学比较工作。
    4,应当充分利用业务过程的总线矩阵建立一致性维度的优先列表,对每个总线矩阵的行进行标注,知明参与到集成过程中的业务是否有明确的执行需求。

    需求六:数据延迟

    数据延迟

    1,标注每个需求,明确业务团体是否了解与他们特定选择相关的数据质量的权衡。
    2,数据延迟需求对 ETL 架构具有较大的影响。高效的处理算法、并行化以及强大的硬件系统可以加快传统的面向批处理的数据流,但是在有些情况下,如果数据延迟需求非常紧迫,ETL 系统的架构必须从批处理方式转换为微批处理方式或者面向流处理的方式。

    需求七:归档与世系

    归档与世系

    1,每个数据仓库也都需要有以往数据的各种副本,要么与新数据比较以便建立发生变化的记录,要么重新处理。
    2,建议在每个ETL流水线的主要活动发生后暂存数据(将其写入磁盘):在数据被获取、清洗和一致化、发布后 暂存数据。
    3,那么什么时候将暂存转入归档,我喜欢将所有暂存数据归档。除非有专门的定义明确认为特定的数据集合将来不在需要。
    4,每个暂存/归档数据集合都应该包含描述来源和建立数据的处理步骤的元数据。按照某些合规性需求的需求,对该世系的跟踪是明确需要的,应该成为每个归档环境的一部分内容。
    5,应当记录数据源和归档的中间数据步骤以及保留政策、安全和隐私方面的约束。

    需求八:BI发布接口

    1,数据的内容和结构能够是BI引用简单而快速。以模糊的方式将数据推到BI应用是不负责任的表现,将会增加应用的复杂性,减缓查询或报表的构建,不必要地增加了商业用户使用数据的复杂性。
    2,列出BI工具需要的所有OLAP多维数据库和特定的数据库结构,列出所有您已经打算建立用于支持BI性能的已知的索引和聚类。

    需求九:可用的技能

    1,查清所在部门的操作系统,ETL工具,脚本语言,编程语言,SQL,DBMS以及OLAP技能,这样可以理解如何暴露出所缺乏的技能。
    2,列出需要支持当前系统以及未来可能有的系统的那些技能。

    需求十:传统的许可证书

    1,目前我们大多使用的是开源软件。还没有遇到许可证书的问题。
    2,列出现有操作系统 的许可证书,无论他们是独家使用授权还是仅仅被建议使用的情况。
    3,当打算更换目前的正在使用的许可证书时候,需要做出充分的准备。


    数据僧 历史文章

    数据仓库-概述-读书笔记一
    数据仓库-DW/BI架构对比-读书笔记二
    数据仓库-事实表/维度表技术-读书笔记三
    维度处理-数据仓库-读书笔记(四)
    数据仓库-高级事实表技术-读书笔记五
    数据仓库-高级维度表技术-读书笔记六
    数据仓库,零售业务举例,维度模型设计4步骤,读书笔记(七)
    数据仓库-零售业务举例维度表设计细节-读书笔记(八)
    数据仓库-零售业务举例如何提高仓库扩展能力-读书笔记(九)
    数据仓库-零售业务中库存如何设计-读书笔记(十)
    如何使用缓慢变化维技术
    数据仓库-订单管理应该注意那些


    数据僧 参考资料

    数据仓库工具箱


    如果您觉得我用心了,觉得您有所收获,麻烦关注下我吧,您的关注就是我的动力,因为有你,我就不是一个人在前行。

    数据僧

    相关文章

      网友评论

        本文标题:ETL系统相关技术和注意事项

        本文链接:https://www.haomeiwen.com/subject/axfolqtx.html