美文网首页
数据血缘关系

数据血缘关系

作者: jeneen1129 | 来源:发表于2020-10-21 16:30 被阅读0次

数据管理——数据血缘关系概述

重要性

数据的血缘关系作为数据治理很重要的部分,需要引起格外的重视。

定义

数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。与人类社会中的血缘关系不同,数据的血缘关系还包含了一些特有的特征:

  1. 归属性。一般来说,特定的数据归属特定的组织或者个人。
  2. 多源性。同一个数据可以有多个来源(多个父亲)。
  3. 可追溯性。数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程。
  4. 层次性。数据的血缘关系是有层次的。

数据血缘关系的可视化

  • 意义:
    可视化,从技术概念上来看,是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化的意义在于迅速快捷地传递信号,形象、直观地将数据及其关系展现出来,方便用户探讨、探索本质,发现问题。
  • 5种可视化元素
    根据表现含义的不同,血缘关系的可视化图形包括5种可视化元素,分布在图形的不同位置。可视化元素分别是:
    1.信息节点
    信息节点用来表现数据的所有者和数据层次信息或终端信息。
    信息节点有三种类型:主节点,数据流出节点,数据流入节点。主节点只有一个,位于整个图形的中间,是可视化图形的核心节点。数据流入节点可以有多个,是主节点的父节点,表示数据来源,位于整个图形的左侧。
    2.数据流转线路
    数据流转线路表现的是数据的流转路径,从左到右流转。
    数据流转线路表现了三个维度的信息,分别是方向、数据更新量级、数据更新频次。
    3.清洗规则节点
    清洗规则节点用来表现数据流转过程中的筛选标准。
    在可视化图形上,清洗规则用一个标有大写字母“E”的圆圈表示,把各种规则简略化表达,以保证图形的简洁、清晰。查看规则内容的操作也很简单,鼠标移动到标有大写字母“E”的圆圈上,则会自动展示标准清单列表。
    4.转换规则节点
    转换规则节点在表现形式上类似于清洗规则节点,用一个标有大写字母“T”的圆圈表示。
    5.数据归档销毁规则节点
    我们认为数据是有生命周期的,当数据不再具备使用价值,他的生命就结束了,或者归档或者直接销毁。
    在可视化图形上,我们设计了一个标有大写字母“R”的圆圈,用来简略的表示数据归档和销毁规则。鼠标移动到标有大写字母“R”的圆圈上,则会自动展示归档和销毁规则清单。

数据血缘关系的作用

1.数据溯源
溯源,指的是探寻事物的根本、源头。
2.评估数据价值
数据的价值在数据交易领域非常重要,涉及到数据的定价。
可以从几个方面给数据价值的评估提供依据:
1)数据受众。在血缘关系图上,右边的数据流出节点表示受众,亦即数据需求方,数据需求方越多表示数据价值越大;
2)数据更新量级。数据血缘关系图中,数据流转线路的线条越粗,表示数据更新的量级越大,从一定程度上反映了数据价值的大小;
3)数据更新频次。数据更新越频繁,表示数据越鲜活,价值越高。在血缘关系图上,数据流转线路的线段越短,更新越频繁。
3.数据质量评估
从数据的血缘关系图上,可以方便的看到数据清洗的标准清单,这个清单反映了对数据质量的要求。
4.数据归档、销毁的参考
如果数据没有了受众,就失去了使用价值。从数据的血缘关系图上看,最右边没有了数据节点,就可以去评估主节点所代表的数据是否要归档或者销毁了。

结语

进入到了大数据时代,错误的数据、遗漏信息的数据大规模出现,数据治理显得非常重要。
数据的血缘关系作为数据治理很重要的部分,需要引起格外的重视。

元数据?
饿了么元数据管理实践之路

相关文章

  • 数据血缘关系

    数据管理——数据血缘关系概述[https://www.cnblogs.com/zhangleisanshi/p/7...

  • 数据血缘关系探析

    数据血缘关系,从概念来讲很好理解,即数据的全生命周期中,数据与数据之间会形成多种多样的关系,这些关系与人类的血缘关...

  • 数据之间竟然也有“血缘关系”?

    你知道数据之间的血缘关系是指什么吗? 数据血缘是什么 人类社会中,血缘关系通常是指由婚姻或生育而产生的人际关系,例...

  • 基于Apache doris怎么构建数据中台(四)-数据接入系统

    基于Apache doris怎么构建数据中台(四)-数据接入系统 上一次我们讲解了数据资产,元数据管理,血缘关系等...

  • Spark-checkpoint检查点

    Spark中对于数据的保存除了缓存操作外,还提供了一种检查点的机制,检查点是为了通过血缘关系实现容错辅助,血缘关系...

  • Day 2072:学习

    数据中台 数据服务打通了数据和应用的访问链路,建立了从数据应用到数据中台数据的全链路数据血缘关系,这就等于我们在迷...

  • 家庭安位——读《夫妇和睦与教子之道》有感(246)

    人与人之间的关系分两种:血缘关系和非血缘关系。有血缘关系的人之间是亲情关系,没有血缘关系的人之间也可能产生朋友、恋...

  • 树形结构与SQL的碰撞——三种树形结构存储方案的对比

    我们在业务中经常要处理树形结构的数据,比如目录树、组织关系、血缘关系等。那么在关系型数据库中如何高效维护并查询树形...

  • 血缘关系

    月初的时候,踌躇了许久,还是给家里打了电话,谈了准备离职的事。 我妈问我,现在的单位待着真的很苦么? 我说不是,思...

  • 血缘关系

    今天看了一篇文章,是讲家庭内部关系的,挺有启发,也很有意思。 血缘关系是由婚姻或生育而产生的人际关系。如父母与子女...

网友评论

      本文标题:数据血缘关系

      本文链接:https://www.haomeiwen.com/subject/duremktx.html