数据血缘关系探析

作者: 安森老叔叔 | 来源:发表于2020-04-13 10:41 被阅读0次

数据血缘关系探析
数据血缘关系
数据之间竟然也有“血缘关系”？
基于Apache doris怎么构建数据中台(四)-数据接入系统
Spark-checkpoint检查点
Day 2072：学习
有效备课的抓手：吃透文本、把握学情
基于Oracle的私有云架构探析
思维导图教学应用探析
探析原因

数据血缘关系，从概念来讲很好理解，即数据的全生命周期中，数据与数据之间会形成多种多样的关系，这些关系与人类的血缘关系类似，所以被称作数据的血缘关系

image.png

从技术角度来讲，数据a通过ETL（处理-存储-传输-发布）处理生成了数据b，那么，我们会说，数据a与数据b具有血缘关系。不过与人类的血缘关系略有不同，数据血缘关系还具有一些个性化的特征：

多源性

同一个数据可以有多个来源（即多个父亲），来源包括，数据是由多个数据加工生成，或者由多种加工方式或加工步骤生成。

可追溯

数据的血缘关系体现了数据的全生命周期，从数据生成到废弃的整个过程，均可追溯。

层次性

数据的血缘关系是具备层级关系的，就如同传统关系型数据库中，用户是级别最高的，之后依次是数据库、表、字段，他们自上而下。

不管是结构化数据，还是非结构化数据，都具有数据血缘关系，他们的血缘关系或简单直接，或错综复杂，都是可以通过科学的方法追溯的。

以某银行财务指标为例，利息净收入的计算公式为利息收入减去利息支出，而利息收入又可以拆分为对客业务利息收入、资本市场业务利息收入和其他业务利息收入，对客业务利息收入又可以细分为信贷业务利息收入和其他业务利息收入，信贷业务利息收入还可以细分为多个业务条线和业务板块的利息收入，如此细分下去，一直可以从财务指标追溯到原始业务数据，如，客户加权平均贷款利率和新发放贷款余额。如果利息净收入指标发现数据质量问题，其根因可以通过下图一目了然发现——这其实就是对业务的数据分析结构化思维。

image.png

数据血缘追溯不只体现在指标计算上，同样可以应用到数据集的血缘分析上。不管是数据字段、数据表，还是数据库，都有可能与其他数据集存在着血缘关系，分析血缘关系对数据质量提升有帮助的同时，对数据价值评估、数据质量评估以及后续对数据生命周期管理也有较大的帮助和提高。

从数据价值评估角度来看，通过对数据血缘关系的梳理，我们不难发现，数据的拥有者和使用者，简单地来看，在数据拥有者较少且使用者（数据需求方）较多时，数据的价值较高。在数据流转中，对最终目标数据影响较大的数据源价值相对较高。同样，更新、变化频率较高的数据源，一般情况下，也在目标数据的计算、汇总中发挥着更高的作用，那可以判断为这部分数据源具有较高的价值。

从数据质量评估角度来看，清晰的数据源和加工处理方法，可以明确每个节点数据质量的好坏。

从数据生命周期管理角度来看，数据的血缘关系有助于我们判断数据的生命周期，是数据的归档和销毁操作的参考。

所以

考虑到数据血缘的重要性和特性，以一般来讲，我们在血缘分析时，会关注应用（系统）级、程序级、字段级三个层次间数据间的关系。比较常见的是，数据通过系统间的接口进行交换和传输。

比较常见的是，数据通过系统间的接口进行交换和传输。例如下图，银行业务系统中的数据，由统一数据交换平台进行流转分发给传统关系型数据库和非关系型大数据平台，数据仓库和大数据平台汇总后，交流各个应用集市分析使用。其中涉及大量的数据处理和数据交换工作：

image.png

全面性
如上图所示，数据处理过程实际上是程序对数据进行传递、运算演绎和归档的过程，即使归档的数据也有可能通过其他方式影响系统的结果或流转到其他系统中。为了确保数据流跟踪的连贯性，必须将整个系统集作为分析的对象。
及时性
为了确保数据字段关联关系信息的可用性和及时性，必须确保查询版本更新与数据字段关联信息的同步，在整个系统范围内做到“所见即所得”。

主要有以下自动化方法：
======待补充==========