美文网首页
2019 Year Review_1

2019 Year Review_1

作者: 赛琳娜林 | 来源:发表于2020-01-07 13:02 被阅读0次

一直想对19年的工作做一个回顾,今天有时间整理一下。工作所在的部门主要服务于某资产管理公司,数据方面的痛点尤其突出,大领导们常常抱怨一家管理几千亿资产的公司,一个规模字段各种不一致。公司的数据仓库是基于Oracle的数据库,数据加工、清洗、处理时间非常长,平均需要5-6个小时,如果上游业务系统提供数据晚了,就会影响到第二天的报表生成,用户体验非常差。数据质量也较差,经常会出现上下游业务系统数据不一致的情况。

于是我们打算通过大数据平台重构数仓,基于分布式计算引擎,高效地对海量数据的加工、清洗、处理,同时也针对数据平台做现有数据的治理工作,通过不断迭代数据治理解决上下游系统数据不一致的问题,提高业务数据质量,解决经营分析准确性、时效性低,分析口径不统一等问题。

大数据平台建设的选型

Hadoop采用分布式文件共享架构(资源共享),即将大的文件分割成许多小文件存储在不同的机器上,通过网络共享数据。在计算任务发起时,管理主机指定资源空闲的多台机器去并行计算,并将各机器返回计算结果进行汇总得到最终结果。

Hadoop的特点:

1.高扩展(动态扩容):能够存储和处理千兆字节数据(PB),能够动态的增加和卸载节点,提升存储能力(能够达到上千个节点)

2.低成本:只需要普通的PC机就能实现,不依赖高端存储设备和服务器。

3.高效率:通过在Hadoop集群中分化数据并行处理,使得处理速度非常快。

4.可靠性:数据有多份副本,并且在任务失败后能自动重新部署。

Hadoop生态圈:

Hive:利用Hive可以不需要编写复杂的Hadoop程序,只需要写一个SQL语句,Hive就会把SQL语句转换成Hadoop的任务去执行,降低使用Hadoop离线计算的门槛。

HBase:海量数据存储的非关系型数据库,单个表中的数据能够容纳百亿行x百万列。

ZooKeeper:监控Hadoop集群中每个节点的状态,管理整个集群的配置,维护节点间数据的一致性。

Flume:海量日志采集系统。

调研过程还了解了当前比较流行的基于关系型数据库的MPP,但由于数据容量收费,预算不够,果断放弃了。

数据治理

数据治理体系包含数据治理组织、数据架构管理、主数据管理、数据质量管理、数据服务管理及数据安全管理内容,这些内容既有机结合,又相互支撑。到底如何理解数据治理呢?这个例子比较容易理解——

2019 Year Review_1

数据架构管理:各类货物(蔬菜、水果)等分区摆放,并且摆放整齐有层次,便于访问和存取。

数据标准管理:规范货物规格以及存放规格一致。

数据质量管理:腐坏货物不能上架;缺失货物要及时补充。

元数据管理:描述货物的品种、价钱、产地和存放规格等。

数据生命周期管理:对货物保质期进行规范以及货物上下架处理;

数据安全管理:原料采购管理;不能随意触摸和使用;不得跨区操作。

大概讲一下我们治理工作的几个关注点:

数据模型

数据模型是数据架构中重要一部分,包括概念数据模型和逻辑数据模型,是数据治理的关键、重点。理想的数据模型应该具有非冗余、稳定、一致、易用等特征。逻辑数据模型能涵盖整个公司的业务范围,以一种清晰的表达方式记录跟踪公司的重要数据元素及其变动,数据模型必须在设计过程中保持统一的业务定义。为了满足将来不同的应用分析需要,逻辑数据模型的设计应该能够支持最小粒度的数据存储,以支持各种可能的分析查询,最大程度上减少冗余,并保障结构具有足够的灵活性和扩展性。

数据标准

数据标准的建立是公司信息化、数字化建设的一项重要工作,行业的各类数据必须遵循一个统一的标准进行组织,才能构成一个可流通、可共享的信息平台。

数据治理对标准的需求可以划分为两类,即基础性标准和应用性标准。前者主要用于在不同系统间,形成信息的一致理解和统一的坐标参照系统,是信息汇集、交换以及应用的基础,包括数据分类与编码、数据字典、数字地图标准;后者是为平台功能发挥所涉及的各个环节,提供一定的标准规范,以保证信息的高效汇集和交换,包括元数据标准、数据交换技术规范、数据传输协议、数据质量标准等。

元数据管理

元数据可以分为业务元数据、技术元数据和管理元数据,主要讲一下比较关注的元数据分析,一般包括影响分析、血缘分析。

影响分析是指通过分析元数据之间的关系,掌控需求变更或数据异常对系统或是各个元数据实体的影响程度。分析内容主要包括:关联实体影响评估、维表变更影响评估。

血缘分析是指通过对元数据关系的回溯,深入分析数据来源。需要支持跨系统的回溯和分析、验证数据流程、中间转换过程及加工过程、持追溯向前血统和向后血统。

数据质量管理

数据质量管理一听就是很抽象的东西,如何具化呢?可以主要针对三大基本功能:

1、数据质量模型:包括用来存储数据质量检查规则、检查任务的内容,同时还可以存放检查结果、检查结果临时数据等内容。

2、ETL调度检查任务:大量的数据质量检查规则由ETL调度负责执行,调度按照制定的频率、优先级、依赖调度相应的检查规则,并将检查结果返回到数据质量模型中。ETL执行的检查规则分别针对数据质量的三大对象:数据文件、数据库对象以及业务规则。

3、数据质量应用:数据质量应用是用来提供给数据质量管理员、以及其他相关用户对数据质量管理子系统的访问接口,用户可以通过应用直接进行数据质量的管理、浏览、分析功能。

总结数据方面的建设目标,高质量的金融行业数据至少有如下几项要求:

一是正确性,在转换、分析、存储、传输、应用流程中不存在错误;

二是完整性,数据库应用或要求的所有记录、字段都存在;

三是一致性,体现在整个数据库的定义和维护方面,确保数据在使用的整个过程中是一致的;

四是时效性,衡量指标是在指定的数据与真实的业务情况同步的时间容忍度内,即指定的更新频度内,及时被刷新的数据的百分比;

五是可靠性,提供数据的数据源必须能够可靠稳定地提供数据。

以上是19年上半年参与的调研、数据建设与治理体系的工作。下半年主要参与投资流程管理体系建设,另外再做总结。

相关文章

网友评论

      本文标题:2019 Year Review_1

      本文链接:https://www.haomeiwen.com/subject/nyyractx.html