美文网首页玩转大数据互联网科技
【原创】对“元数据”的理解

【原创】对“元数据”的理解

作者: 涂山先生_冰侍狐 | 来源:发表于2017-05-09 22:34 被阅读95次
timg (18).jpg

一、引言

数据元与元数据是数据工程领域中非常容易被混淆的两个概念。数据元相对来说更容易理解一些,就是对一个对象类的属性的完整表达。数据元的作用就是组成数据集或数据库,数据的内容也正是记录在一个个数据元里,比如户籍信息中,某人的姓名、性别、身份证号、籍贯等等的描述都体现在数据元中。

那么,元数据又是什么呢?文献[1]的说法比较能够切中要害:

  1. 元数据本身也是一种数据元,是用一种一致、标准的方式来表达的数据元;
  2. 元数据的每一个元素都是一个数据元,也就是说,描述元数据的属性时,应符合数据元的标准;
  3. 元数据和数据元的字典格式是基本一致的;
  4. 为使数据便于理解和使用,提供数据元的同时,应同时提供相关元数据。

文献[1]所提出的四个观点,很精练地阐明了元数据在形式上的特点:它也是一种数据元。但是,仍然与许多其他论文、书籍、标准一样,并没有说明白元数据存在的意义、作用和用法。下面,我就尝试着用最直白的语言阐明之。

二、元数据的意义与作用

如前所述,元数据也是一种数据元,它来自于数据元,但又比数据元层次高,具有一定的“共性”和“抽象”意味。

举个浅显的例子,一次人口普查,上海新增的人口名单为:

姓名 性别 籍贯 身份证号 ……
张三 江西南昌 360XXX ……
李四 上海 310XXX
王五 湖北武汉 420XXX ……
…… …… …… …… ……

在上海当地的信息系统中存储和维护这张数据表,不存在任何问题,但如果要上报到中央,或者与其他机构共享,这张表中的信息量就明显不够了,以为在“中央”或“其他机构”的视角中,这张表是哪个省市、是何时、由何机构生成的?这类信息都没有。这样,”中央“或”其他机构“将无法理解这张数据表的来龙去脉,自然也就无法”集成“和”共享“到他们的数据库之中。

实际上,我主观认为,上面这张表起初也是有省市、生成时间、生成机构这些信息的。

省市 生成时间 生成机构 姓名 性别 籍贯 身份证号 ……
上海市 20XX.XX 某单位 张三 江西南昌 360XXX ……
上海市 20XX.XX 某单位 李四 上海 310XXX
上海市 20XX.XX 某单位 王五 湖北武汉 420XXX ……
…… …… …… …… …… …… …… ……

但是,对于同一地区、同一机构普查出来的大量数据来说,这几种信息又是重复的、同一的。为了避免这些重复信息带来的存储空间浪费和升级维护难度,干脆将它们抽象出来,平时不体现,在需要维护或分享数据时,才与数据集一同分发。这样,就有了“元数据”。

所以,通过上面的例子,我们可以对元数据的作用和意义做如下总结:

  1. 元数据是一个数据集合中的通用属性的结合体,其作用是避免数据冗余,方便数据共享,意义是减少维护成本,提高共享效率;

  2. 元数据的一般作用在一个数据集上。一个数据集的数据量可以很大,但一般只有一个数据元。在提交数据集时,如果带上元数据信息,可使其在网络上的检索、定位和理解更加便利。

三、元数据的用法

元数据的用法,归根结底就是一句话:“配合数据集,描述数据元“。当然,前提是大家要对元数据的属性、结构和表示形成一套共识,也就是所谓“元数据标准”。否则,连格式都不一致,共享也就无从谈起。比较著名的元数据标准有《都柏林核心元数据标准(DC元数据标准)》、ISO 19115《地理信息元数据标准》等,国内也有了GB/T 18391系列标准。

四、元数据标准存在的意义

很简单,如果某个行业有了元数据标准,那么这个行业的数据工程标准体系结构就如:

元数据标准 数据元标准 模式与编码标准
数据元标准1 模式与编码标准1
元数据标准 数据元标准2 模式与编码标准2
数据元标准3 模式预编码标准3

这样,只要有一个或少数几个元数据标准就够了。反之,如果没有元数据标准,那么每个数据元标准都需要用冗长的篇幅,将本该在单个元数据标准中的内容重复记述在多个数据元标准中。


原创文章,欢迎批评指正。若要转载,须与本人先行沟通。

参考文献:

[1] 王丹,王文生. 元数据与数据元的内涵及其应用. 农业网络信息, 2015, 11.

相关文章

  • 【原创】对“元数据”的理解

    一、引言 数据元与元数据是数据工程领域中非常容易被混淆的两个概念。数据元相对来说更容易理解一些,就是对一个对象类的...

  • 【阿里P8大牛教你Android入门之路(java篇)】Java

    一、元数据 要想理解注解(Annotation)的作用,就要先理解Java中元数据的概念。 1.元数据概念 元数据...

  • JAVA注解

    一、元数据 要想理解注解 (Annotation)的作用,就要先理解Java中元数据的概念。 1. 元数据概念 元...

  • 元数据概念以及原理应用全解析

    元数据是什么意思?元数据如何理解?元数据的作用是什么?大数据时代,何处安放我们的元数据?本文将围绕这些问题来探...

  • 不明觉厉的元宇宙:第2季《商业参考》013

    013 | 一个元宇宙,四种理解方式 人们对元宇宙的四种理解: 1-元宇宙是一种底层宇宙,它支持数据在不同平台之间...

  • 换个角度认识大数据(上)——何为元数据

    什么是元数据? 要理解这个问题,首先要知道“元”是什么。 元数据意味着“有关数据的数据”。虽然“meta”前缀(来...

  • 元数据,怎么理解?

    元数据,怎么理解? 在计算机中,有各种元数据。文件有元数据、网页有元标签。很容易搞迷糊。抓住“元”这个字,就很好理...

  • 元数据治理—从数据的源头开始

    将题目分为两部分——元数据和数据治理时,元数据治理最容易理解。询问任何擅长元数据管理的组织(或提供他们的数据,信息...

  • Java 注解

    一、概述 注解(Annotation)是Jdk5开始增加的对元数据(描述数据属性的信息)的支持,注解我们可以理解为...

  • 元数据管理

    基本概念 元数据描述的是数据的背景、内容、数据结构及其生命周期管理。简而言之,元数据是“数据的背景”。通俗可以理解...

网友评论

    本文标题:【原创】对“元数据”的理解

    本文链接:https://www.haomeiwen.com/subject/ccoitxtx.html