课程链接:利用元数据管理数据质量
通过本认证学习,学员可掌握数据仓库元数据的应用及核查方法,通过记录核查表,利用元数据,分析数据产生问题的原因,制定解决方案,提升数据质量。
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元数据的一种应用,是1995年2月由国际图书馆电脑中心(OCLC)和美国国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)所联合赞助的研讨会,在邀请52位来自图书馆员、电脑专家,共同制定规格,创建一套描述网络上电子文件之特征。
元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。
特点:
元数据是关于数据的结构化的数据,它不一定是数字形式的,可来自不同的资源。
元数据是与对象相关的数据,此数据使其潜在的用户不必先具备对这些对象的存在和特征的完整认识。
元数据是对信息包裹(Information Package)的编码的描述。
元数据包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发现和检索。
元数据不仅对信息对象进行描述,还能够描述资源的使用环境、管理、加工、保存和使用等方面的情况。
在信息对象或系统的生命周期中自然增加元数据。
元数据常规定义中的“数据”是表示事务性质的符号,是进行各种统计、计算、科学研究、技术设计所依据的数值,或是说数字化、公式化、代码化、图表化的信息。
随着企业数据不断膨胀,数据间构成了一张极为复杂的加工关系网图。如果数据出现了错误,如何快速的锁定引发问题的原因,如何发现哪些实体会受到影响。
课程附带实验案例说明:
某网商公司搭建的数据平台,数据从底层仓库进行多层加工至展示层,最终发现加工后的数据存在数据质量问题,现需使用MaxCompute的元数据血缘分析,可以有针对性的进行数据追踪,对数据质量问题进行分析,一层一层追至产生数据问题的点,最终解决数据质量问题。
更多精品课程:
阿里云大学官网(阿里云大学 - 官方网站,云生态下的创新人才工场)
网友评论