数据清晰性检验:
数据表中的字段含义是否清晰,使用数据者是否可以根据字段名基本确认字段含义,而不会产生歧义;
数据表及表字段是否已完善了相应的说明,相应的说明及标签是否可以更好地让数据使用者理解该中间表的含义;
数据表中字段的粒子性:建设好的数据表中字段的含义应该是单粒度的,同一字段不应为含义拼接字段,也不应代表不同的含义类型;
数据表的命名是否规范,是否可以通过数据表名理解数据表的用途。
数据一致性检验:
数据仓库中,数据表字段的取值是否已经规整化:不同的数据源上报的同一含义的字段的取值可能是不同的,要将不同的数据源的数据内容与标准值进行规整,统一大小写、格式,编码等;
在数据表中,字段的值与字段的类型是否一致:字段类型不对可能会影响数据的使用;
在数据表中,字段的值是否与字段的含义一致:这点在数据准确性上会做详细介绍;
在数据表中,根据实际情况确认字段为空的值应删除或填充。
数据准确性检验
字段的值与字段的含义是否相匹配:
a) 是否发生串位,影响错位之后数据表中各个字段值;
b) 是否把A字段的值赋于了B字段, 而影响发生错位的字段取值。
字段的值是否合法准确,这是数据准确性的基础:
a) 字段是否包含空值;空值是否合理;
b) 字段的取值的长度是否合法;
c) 字段的值是否属于本字段的字符集范围;
d) 字段的内容是否与定义的格式相匹配。
数据记录数检验:
a) 数据表的数据的总记录条数是否与原始表记录条一致;
b) 数据表的一些纬度字段的统计分布是否合理;
c) 数据表中的人均分别、最大值、最小值、中位数、众数等相关数据是否合理;
d) 在满足c1,c2的时候记录数是否与经验值相一致。
完整性检验
数据表在建设过程中是否能包含原始表的核心信息,即数据表的信息熵是否等于原来表的信息熵;
纬度字段取值是否涵盖所有该字段的枚举值;
中间表在建设过程中各个环节上的数据损耗。
网友评论