结构化数据包括基础数据、主数据、事务数据、报告数据、观测数据、规则数据。
结构化数据的共同特点是以信息架构为基础,建立统一的数据资产目录、数据标准与模型。
基础数据用于对其他数据进行分类,在业界也称作参考数据。基础数据通常是静态的(如国家、币种),一般在业务事件发生之前就已经预先定义。它的可选值数量有限,可以用作业务或IT的开关和判断条件。当基础数据的取值发生变化的时候,通常需要对流程和IT系统进行分析和修改,以满足业务需求。因此,基础数据的管理重点在于变更管理和统一标准管控。
基础数据在支撑场景分流、流程自动化、提升分析质量方面起着关键作用。
主数据是参与业务事件的主体或资源,是具有高业务价值的、跨流程和跨系统重复使用的数据。
主数据的错误可能导致成百上千的事务数据错误,因此主数据最重要的管理要求是确保同源多用和重点进行数据内容的校验。
数据消费层:数据消费层包括所有消费数据的IT产品团队,负责提出数据集成需求和集成接口实施。
主数据服务实施层:负责主数据集成解决方案的落地,包括数据服务的IT实施和数据服务的配置管理。
主数据服务设计层:为需要集成主数据的IT产品团队提供咨询和方案服务,负责受理主数据集成需求,制定主数据集成解决方案,维护主数据的通用数据模型。
管控层:管控层由信息架构专家组担任,负责主数据规则的制定与发布,以及主数据集成争议或例外的决策。
客户数据是企业最重要的主数据之一,几乎贯穿所有业务经营活动。
客户数据在全流程中的及时性、准确性、完整性、一致性、有效性、唯一性是业务高效运作、经营可控的重要保障。
客户数据的问题根源在以下几个方面。
客户信息不完整,且下游系统未严格遵循数据源头所定义的标准。
数据架构不灵活、紧耦合,不能有效支撑多BG的业务管理。
下游系统集成管理不严格,存在多源头录入。
客户数据源头的数据质量管理控制点无法延伸到下游的各集成IT系统中。
为彻底解决客户数据问题,华为制订了客户数据管理及服务化架构方案,以客户数据质量为核心,严控数据流入与流出两个端口,搭建客户数据管理及服务平台,统一数据架构和标准,通过服务化架构实现“数出一孔”,提升财报准确性、提升运作效率、降低运营风险。
以客户数据架构的优化为基础,重点通过数据服务化方式对整个华为公司原有的集成方式进行改造,包括下游的136个IT系统和应用,3大类近2000个改造点,从根本上消除了原有的不合理的数据集成方式,具体包括如下4点。
1)确保下游IT系统或应用不从非数据源系统集成客户数据。
例如:A系统从B系统(非数据源)集成主数据,并且在A系统落地了物理表。
2)确保下游IT系统或应用集成合法数据源且不修改属性。
例如,修改了展现业务含义的字段,将编码改为编号。
3)确保下游IT系统或应用中不补录数据。
例如,客户数据从合法的数据源集成,集成后对客户数据进行行记录的新增或补录。
4)确保下游IT系统或应用不向后传递数据。
例如,某系统未以数据服务方式从数据源获取数据,而是直接调用中间系统(非数据源)的客户数据。
通过服务化改造提升了全流程数据的一致性,同时为各个环节带来了明显的业务价值,包含如下几点。
1)实现“数出一孔”,提高数据质量。
2)满足内外部应遵从的要求,降低华为公司风险。
3)支持交易流打通,提升运营效率。
4)支持经营分析和价值评价。
5)支持价值挖掘,聚焦优质客户。
事务数据在业务和流程中产生,是业务事件的记录,其本身就是业务运作的一部分。事务数据是具有较强时效性的一次性业务事件,通常在事件结束后不再更新。
事务数据的治理重点就是管理好事务数据对主数据和基础数据的调用,以及事务数据之间的关联关系,确保上下游信息传递顺畅。
报告数据是指对数据进行处理加工后,用作业务决策依据的数据。它用于支持报告和报表的生成。
用于报告和报表的数据可以分为如下几种。
用于报表项数据生成的事实表、指标数据、维度。
用于报表项统计和计算的统计函数、趋势函数及报告规则。
用于报表和报告展示的序列关系数据。
用于报表项描述的主数据、基础数据、事务数据、观测数据。
用于对报告进行补充说明的非结构化数据。
报告数据涵盖的范围较广,如主数据、基础数据等,这些数据类别本身已经有相应的管理机制和规范,这里我们重点对部分新的细分数据类型进行说明。
1)事实表:从业务活动或者事件中提炼出来的性能度量。其特点为:
每个事实表由颗粒度属性、维度属性、事务描述属性、度量属性组成;
事实表可以分为基于明细构建的事实表和基于明细做过汇聚的事实表。
2)维度:用于观察和分析业务数据的视角,支持对数据进行汇聚、钻取、切片分析。其特点为:
维度的数据一般来源于基础数据和主数据;
维度的数据一般用于分析视角的分类;
维度的数据一般有层级关系,可以向下钻取和向上聚合形成新的维度。
3)统计型函数:与指标高度相关,是对指标数量特征进一步的数学统计,例如均值、中位数、总和、方差等。其特点为:
通常反映某一维度下指标的聚合情况、离散情况等特征;
其计算数值在报告中通常呈现为图表中的参考线。
4)趋势型函数:反映指标在时间维度上变化情况的统计方式,例如同比、环比、定基比等。其特点为:
通常将当期值与历史某时点值进行比较;
调用时,需要收集指标的历史表现数据;
其计算数值在报告中通常呈现为图表中的趋势线。
5)报告规则数据:一种描述业务决策或过程的陈述,通常是基于某些约束下产生的结论或需要采取的某种措施。其特点为:
将业务逻辑通过函数运算体现,通常一个规则包含多个运算和判断条件;
规则的计算结果一般不直接输出,需要基于计算结果翻译成业务语言后输出;
规则通常与参数表密切相关。
6)序列关系数据:反映报告中指标及其他数据序列关系的数据。
观测数据是通过观测工具获取的数据,观测对象一般为人、事、物、环境。
相比传统数据,观测数据通常数据量较大且是过程性的,由机器自动采集生成。不同感知方式获取的观测数据,其数据资产管理要素不同。
观测工具的元数据可以作为数据资产管理:软感知(埋点、日志收集、爬虫)观测工具抽象成业务对象,由IT部门担任数据Owner进行统一管理;硬感知观测工具作为资源类数据,也建议作为业务对象由相应的领域担任数据Owner进行管理。
规则数据是结构化描述业务规则变量(一般为决策表、关联关系表、评分卡等形式)的数据,是实现业务规则的核心数据,如业务中普遍存在的基线数据。
规则数据主要有以下特征:
1)规则数据不可实例化;
2)规则数据包含判断条件和决策结果两部分信息,区别于描述事物分类信息的基础数据;
3)规则数据的结构在纵向(列)、横向(行)两个维度上相对稳定,变化形式多为内容刷新;
4)规则数据的变更对业务活动的影响是大范围的。
其基本原则为:
1)规则数据的管理是为了支撑业务规则的结构化、信息化、数字化,目标是实现规则的可配置、可视化、可追溯。
2)不同于标准化的信息架构管理,规则数据的管理具有轻量化、分级的特点。重要的、调用量大、变动频繁的业务规则需要通过规则数据管理,使其从代码中解耦,进行资产注册;使用广泛的、有分析需求的规则数据需要通过注册入湖,实现共享和复用。
3)业务规则在架构层次上与流程中的业务活动相关联,是业务活动的指导和依据,业务活动的结果通过该业务活动的相关业务对象的属性来记录。业务规则通过业务活动对业务事实、业务行为进行限制,业务人员可以根据业务规则判断业务情况,采取具体行动。
4)业务规则包含规则变量和变量之间的关系,规则数据主要描述规则的变量部分,是支撑业务规则的核心数据
网友评论