美文网首页
2019-08-19

2019-08-19

作者: AliceGYY | 来源:发表于2019-08-19 10:01 被阅读0次

    一、数据质量分析

    脏数据:

    缺失值

    异常值

    不一致的值

    重要数据含有特殊符号的数据

    1.异常值分析

    (1)简单统计量分析,最常用的统计量是最大值和最小值,用来判断这个变量是否超过了合理的范围。

    (2)3theta原则

    (3)箱型图分析

    2.一致性分析

    3.2数据特征分析

    3.2.1分布分析

    1.定量数据的分布分析

    对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行:

    (1)求极差

    (2)决定组距与组数

    (3)决定分点

    (4)列出频率分布表

    (5)绘制频率分布直方图

    遵循的主要原则如下:

    (1)各组之间必须时互相排斥的

    (2)各组必须将所有的数据包含在内

    (3)各组的组宽最好相等

    2.定性数据的分布分析

    相关文章

      网友评论

          本文标题:2019-08-19

          本文链接:https://www.haomeiwen.com/subject/ckwjsctx.html