数据质量分析的必要性及目的
大部分数据都包含属性错误、缺失值或其他类型的不一致现象,所以在建模、数据融合、数据分析等前都需要对数据进行全面的质量分析。数据质量分析是数据探索的前提,不可信的数据是无法得出可信的结论的。
数据质量分析是以评估数据的正确性和有效性为目标。
数据质量分析的内容
数据分析内容主要有四个基本方面,这四个方面基本适用所有数据的质量分析。
(1)缺失值:缺失值包含空值和编码无意义的值
(2)数据错误:通常指排字错误
(3)度量标准错误:
(4)编码不一致:例如性别女、male
数据质量分析方法
值分析
这一部分工作主要是从总体上来看数据的分布情况,比如数据是否存在唯一值、空值占比等。主要统计量有总记录数(反映数据规模)、唯一值数(反映数据多样性,类别之类)、空值占比(无效数据的影响程度)、异常值占比(适用于个别数据要求的特征,如年龄大于1000可认为异常值)。
统计分析
常用统计量:众数(发生频率最高的值,当异常值出现频率最高,则需要考虑数据可靠性)、分位数(小于一定阈值的数据占比,中位数是50%分位数)、偏度(检验分布正太性)、标准差(数据分散程度)、均值(数据平均状况)。
频次与直方图分布
统计各组数据出现的频次、数据最值。
网友评论