美文网首页
数据质量分析

数据质量分析

作者: 宅家学算法 | 来源:发表于2020-05-12 16:40 被阅读0次

数据质量分析的必要性及目的

 大部分数据都包含属性错误、缺失值或其他类型的不一致现象,所以在建模、数据融合、数据分析等前都需要对数据进行全面的质量分析。数据质量分析是数据探索的前提,不可信的数据是无法得出可信的结论的。
 数据质量分析是以评估数据的正确性和有效性为目标。

数据质量分析的内容

 数据分析内容主要有四个基本方面,这四个方面基本适用所有数据的质量分析。
 (1)缺失值:缺失值包含空值和编码无意义的值
 (2)数据错误:通常指排字错误
 (3)度量标准错误:
 (4)编码不一致:例如性别女、male

数据质量分析方法

值分析

 这一部分工作主要是从总体上来看数据的分布情况,比如数据是否存在唯一值、空值占比等。主要统计量有总记录数(反映数据规模)、唯一值数(反映数据多样性,类别之类)、空值占比(无效数据的影响程度)、异常值占比(适用于个别数据要求的特征,如年龄大于1000可认为异常值)。

统计分析

 常用统计量:众数(发生频率最高的值,当异常值出现频率最高,则需要考虑数据可靠性)、分位数(小于一定阈值的数据占比,中位数是50%分位数)、偏度(检验分布正太性)、标准差(数据分散程度)、均值(数据平均状况)。

频次与直方图分布

 统计各组数据出现的频次、数据最值。

相关文章

  • R 数据质量分析①

    数据质量分析 数据质量分析是数据挖掘中数据准备的最重要一环,是数据处理的前体。数据质量分分析主要任务是识别脏数据。...

  • 【数据分析】-001数据探索篇-数据质量分析

    数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确...

  • 使用MaxCompute进行数据质量核查

    数据质量基本介绍 什么是数据质量? 数据质量顾名思义就是数据的质量 数据质量是数据分析结论有效性和准确性的基础,也...

  • 使用MaxCompute进行数据质量核查

    数据质量基本介绍 什么是数据质量? 数据质量顾名思义就是数据的质量 数据质量是数据分析结论有效性和准确性的基础,也...

  • 大数据Clouder认证:使用MaxCompute进行数据质量核

    数据质量基本介绍 什么是数据质量? 数据质量顾名思义就是数据的质量 数据质量是数据分析结论有效性和准确性的基础,也...

  • 数据质量分析

    一、数据质量分析数据质量分析是数据挖掘中数据准备最重要的一环,是数据预处理的前提,是数据挖掘分析结论有效性和准确性...

  • 缺陷分析笔记

    缺陷分析的基础是数据质量,该如何保证数据质量? 高质量的数据,是缺陷分析的基础,可以从两个方面大的方面来保证数据质...

  • 基于日志服务的GrowthHacking(1):数据埋点和采集(

    数据质量决定运营分析的质量 在上文中,我们介绍了GrowthHacking的整体架构,其中数据采集是整个数据分析的...

  • 数据分析之特征分析(一)

    1 数据质量分析 数据质量分析的主要任务是检查原始数据中是否存在脏数据。 脏数据包括如下内容: 缺失值缺失值的处理...

  • nanopore测序数据质控

    目前的nanopore测序质量一般,那么测序质量到底如何,则需要进行量化,也就是数据质控分析。数据质控是数据分析中...

网友评论

      本文标题:数据质量分析

      本文链接:https://www.haomeiwen.com/subject/tmwljftx.html