基于PDCA的数据质量管理框架
什么是数据质量
华为数据质量指“数据满足应用的可信程度”,有以下6个维度
- 完整性:数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。
- 及时性:及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时;数据交付时间过长可能导致分析结论失去参考意义。
- 准确性:真实、准确地记录原始数据,无虚假数据及信息。数据要准确反映其所建模的“真实世界”实体。
- 一致性:遵循统一的数据标准记录和传递数据和信息,主要体现在数据记录是否规范、数据是否符合逻辑。
- 唯一性:同一数据只能有唯一的标识符。体现在一个数据集中,一个实体只出现一次,并且每个唯一实体有一个键值且该键值只指向该实体。
- 有效性:数据的值、格式和展现形式符合数据定义和业务定义的要求。
数据服务生命周期管理
流程质量是基于流程结果评估业务执行的好坏,数据质量更关注业务对象、业务规则、业务过程、业务结果等数据是否得到了及时记录。
数据质量的总体框架
华为以ISO8000质量标准体系为依据,设计了PDCA(Plan、Do、Check、Action、计划、执行、检查、处理)持续改进的数据质量管理
框架
- 自上而下打造数据质量领导力
- 全面推进数据质量持续改进机制
- 不断加强数据质量能力保障
全面监控企业业务异常数据
数据质量规则👍
若想从众多数据中识别出异常数据,需要通过数据质量规则给数据打上标签;数据质量规则是判断数据是否符合数据质量要求的逻辑约束。如下4类数据质量分类框架:
- 单列数据质量规则:关注数据属性值的有无以及是否符合自身规范的逻辑判断。
- 跨列数据质量规则:关注数据属性间关联关系的逻辑判断。
- 跨行数据质量规则:关注数据记录之间关联关系的逻辑判断。
- 跨表数据质量规则:关注数据集关联关系的逻辑判断。
异常数据监控
- 识别监控对象范围,确定监控内容
- 数据源剖析
a. 数据源内容:如从上述数据源剖析结果的摘要视图中,我们可以了解到此表包含员工工号、姓名等内容,即列信息等。
b. 数据源结构:包括技术结构和业务结构。技术结构指空值频率、相异值频率、值范围(最大值、最小值)、模式、长度、数据类型。业务结构如组织结构存储是平面结构还是树状结构。
c. 数据源质量:根据数据标准分析剖析结果的数据质量,例如必填字段是否有空值存储,有允许值列表中的值个数与相异值频率是否一致等。 - 设计和配置监控规则,自动监测异常数据
通过数据质量综合水平牵引质量提升
数据质量度量运作机制
- 度量模型
- 数据owner职责要求
- 专业支撑组织职责要求
- 度量规则
a. 度量对象选定原则:聚焦业务运营痛点数据和影响财报的关键数据
b. 度量频率:一年度量两次
c. 度量方法:从“设计”及“执行”两个方面发展,通过“设计”明确架构及标准,通过“执行”反映其质量结果。
d. 评价标准:统一采取百分率的方式评价,并根据度量得分划分
设计质量度量
- 数据资产目录
- 数据标准
- 数据模型
- 数据分布
- 设计质量打分模型
执行质量度量
执行质量度量主要是从数据质量六性(一致性、完整性、及时性、唯一性、有效性、准确性)评估数据内容的清洁度,设计三个要素如下:
- 客户关注重要性:给客户运营带来直接影响的数据的客户关注重要性就高
- 法律财务风险性:与法律、财务的关联性强,一旦发生质量问题,会触犯法律或带来相关财务损失,那么该数据的法律财务风险性就高
- 业务流程战略性:数据所产生的业务流程如果是公司核心交易流程或战略地位高的流程,那么数据的业务流程战略性普遍会得到较高关注
质量改进
质量改进的步骤本身就是一个PDCA循环
网友评论