元数据管理

作者: reco171 | 来源:发表于2022-03-15 18:41 被阅读0次

Hadoop源码分析-Namenode 元数据管理源码分析
企业数据治理的九大成功要素
HDFS元数据管理机制
利用元数据管理数据质量
利用元数据管理数据质量
大数据元数据管理系统有哪些功能
元数据管理
元数据管理
元数据管理
元数据管理

什么是元数据？
元数据MetaData狭义的解释是用来描述数据的数据，广义的来看，除了业务逻辑直接读写处理的那些业务数据，所有其它用来维持整个系统运转所需的信息／数据都可以叫作元数据。比如数据表格的Schema信息，任务作业的血缘关系，用户和数据治理任务的权限映射关系信息等。
为什么进行元数据管理？
对数据库表的元数据用元数据工具进行管理，就可以很清楚的知道表与表之前的血缘关系。一个表从哪几个表通过什么方式得来的，这些信息可以辅助我们问题追踪。方便数据资产管理，对于几千张表的，有了元数据工具能够快速查询管理。
与其说数据仓库是软件开发项目，还不如说是系统集成项目，因为它的主要工作是把所需的数据仓库工具集成在一起，完成数据的抽取、转换和加载，OLAP分析和数据挖掘等。如下图所示，它的典型结构由操作环境层、数据仓库层和业务层等组成。
image.png
元数据模型
（1）元数据类型（types）
元数据类型说明如何存储并访问特定类型的元数据对象。类型表示一个特征或一个特性集合, 这些属性定义了元数据对象。具有开发背景的用户将识别类型的相似性, 以面向对象编程语言元数据的 “Class” 定义或关系的 “table schema”数据库。
（2）元数据实例（Entity）
实体是元数据类型的特定值或实例, 因此表示特定的元数据对象。面向对象的类比编程语言, “instance” 是某个 “Class” 的 “Object”。
（3）属性（Attribute**）
属性定义在复合 metatypes 中, 如Class和Struct。可以简单将属性称为具有名称和 metatype 值。然而Atlas 中的属性有更多的属性来定义与type system相关的更多概念。
元数据功能
（1）元数据管理
元数据管理包括元数据类型管理和元数据实体管理等，元数据类型有hive_table、hive_db等，元数据实体管理包括元数据创建、修改、删除、查看。可通过元数据版本号，实现元数据变更。
（2）元数据搜索与发现
提供的UI，能够按类型(type)，分类(classification)，属性值(attribute)或自由文本搜索实体。丰富的REST API，可按复杂条件进行搜索。提供SQL搜索实体的查询语言 - 域特定语言（DSL）。
（3）元数据分析
元数据分析包括元数据的追踪关系、数据血缘、元数据的统计等。通过元数据分析，能够对数据资产信息，包括有几个库、多少张表，以及表之间的关系。
（4）其他元数据功能
元数据标签、元数据安全等元数据管理功能。
5.开源元数据管理
（1）Altas
Atlas的主要目标是数据治理，支持与HBase，Hive和Kafka的集成。通过API示例了解Atlas元数据类型、元数据实体等。
1）Altas元数据类型（types）
通过API http://atlasserverhost:port/api/atlas/types获取所有的****types****。Altas元数据类型有：hive_db 、hive_table 、hive_column等，具体如下返回结果
{
"results": [
"Asset",
"hive_column",
"Process",
"storm_node",
"storm_bolt",
"falcon_process",
"falcon_feed_replication",
"hive_serde",
"kafka_topic",
"hive_table",
"hive_storagedesc",
"sqoop_dbdatastore",
"hive_principal_type",
"fs_permissions",
"jms_topic",
"hive_process",
"falcon_cluster",
"storm_spout",
"Referenceable","falcon_feed_creation",
"falcon_feed",
"hdfs_path",
"sqoop_process",
"Infrastructure",
"storm_topology",
"hive_order",
"DataSet",
"fs_path",
"hive_db",
"file_action"
],
"count": 34,
"requestId": "qtp180396531315
b17554dcf93d4d7fa6ede124388a5759"
}
2）Altas元数据实例
一个元数据实例的定义：
id: "9ba387ddfa76429cb791ffc338d3c91f"
typeName: “hive_table”
values:
name: “customers”
db: "b42c6cfcc1e742fda9e6890e0adf33bc"
owner: “admin”
createTime: "20160620T06:
13:28.000Z"
lastAccessTime: "20160620T06:
13:28.000Z"
comment: null
retention: 0
sd: "ff58025f685441959f753a3058dd8dcf"
partitionKeys: null
aliases: null
columns: ["65e2204f6a234130934a9679af6a211f",
"d726de70faca46fb9c99cf04f6b579a6",
...]
parameters: {"transient_lastDdlTime": "1466403208"}
viewOriginalText: null
viewExpandedText: null
tableType: “MANAGED_TABLE”
temporary: false
3）Altas属性（Attribute**）
属性定义在复合 metatypes 中, 如Class和Struct。可以简单将属性称为具有名称和 metatype 值。然而Atlas 中的属性有更多的属性来定义与type system相关的更多概念。
（2）Marquez
Wework于2018年10月开源了Marquez， Marquez更加轻量级，对Airflow有着很好的支持。
Marquez数据模型。Marquez的数据模型强调数据集的不变性和及时处理性。数据集由作业运行生成，价值重要。作业运行与版本代码链接，并生成一个或多个不可变的版本输出。数据集的更改通过轻量级API的调用被记录在作业执行的不同点，包括运行本身的成功或失败。
1）作业：作业包含所有者、唯一名称、版本和可选描述。作业会将一个或多个版本输入定义为依赖，并将一个或多个版本输出定义为artifacts。需注意的是，作业可能只定义了输入数据集，也可能仅定义了输出数据集。
2）作业版本：作业的只读不可变版本，有唯一可引用的链接，以编码存储保证源码的重现。作业版本将一个或多个输入和输出数据集关联到作业定义（数据在各种作业中的流转，对记录血缘信息很重要）。这些关联对源链接进行分类，并提供强大的可视化数据流。
3）数据集：数据集有所有者、唯一名称、schema、版本和可选描述。数据集包含于数据源。数据源可将物理数据集分组到它们的物理源。每个数据集都有一个指向历史更改集的版本指针，由Marquez来维护。当将数据集更改提交回Marquez时，将生成一个唯一的版本ID，进行存储，然后将其设置为当前版本，并在内部更新指针。
4）数据集版本：数据集的只读不可变版本。每个版本都可以独立读取，有一个唯一ID，映射到数据集的更改，以保留其在特定时间点的状态。只有当数据集的更改被记录，才会更新最新版本ID。为了计算不同的版本ID，Marquez将版本控制功能应用于与底层数据源的数据集相对应的一组属性。
参考
[1]收藏】关于元数据(Metadata)和元数据管理，这是我的见过最全的解读！
[2]使用Atlas进行元数据管理之Atlas简介
[3]Apache atlas 的入门教程
[4]数据治理---Apache Atlas元数据管理
[5]Marquez，开源的元数据管理工具
[6]Marquez Data Model

Hadoop源码分析-Namenode 元数据管理源码分析
[TOC] Namenode 元数据管理源码分析本文讲解 Namenode 元数据管理源码分析，内容包括HDFS...
企业数据治理的九大成功要素
“数据治理的九个要素”如下：全面自动的元数据管理—— 元数据管理致力于处理技术元数据、业务元数据、管理元数据，通...
HDFS元数据管理机制
本文章的主题如下：什么是元数据？元数据管理机制 Checkpoint操作元数据元数据管理客户端上传文件的时...
利用元数据管理数据质量
如何利用元数据管理数据质量：利用元数据管理数据质量什么是元数据：任何文件系统中的数据分为数据和元数据。数据是指...
利用元数据管理数据质量
如何利用元数据管理数据质量：利用元数据管理数据质量什么是元数据：任何文件系统中的数据分为数据和元数据。数据是指...
大数据元数据管理系统有哪些功能
一、大数据元数据管理系统功能首先，实现元数据管理，我们就得先来了解元数据，那么什么又是元数据呢？（一）大数据—...
元数据管理
基本概念元数据描述的是数据的背景、内容、数据结构及其生命周期管理。简而言之，元数据是“数据的背景”。通俗可以理解...
元数据管理
定义 1）描述数据的数据，数据治理的核心和基础。 2）通过数据地图，让数据使用者清晰看到"业务有什么数据"、“数据...
元数据管理
1 为什么需要数据治理？通过数据治理实现企业数据的标准化、提高数据质量、提升业务处理的效率，为数据分析提供准确的...
元数据管理
什么是元数据？元数据MetaData狭义的解释是用来描述数据的数据，广义的来看，除了业务逻辑直接读写处理的那...

元数据管理

相关文章

Hadoop源码分析-Namenode 元数据管理源码分析

企业数据治理的九大成功要素

HDFS元数据管理机制

利用元数据管理数据质量

利用元数据管理数据质量

大数据元数据管理系统有哪些功能

元数据管理

元数据管理

元数据管理

元数据管理

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读