美文网首页
数据分析框架

数据分析框架

作者: 陈吻吻 | 来源:发表于2020-03-19 23:15 被阅读0次

    数据质量分析

    一、脏数据包括:

    缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据。

    1.缺失值处理:

    删除、插补、不处理

    插补方法:均值/中位数/众数、固定值、最临近插补、回归方法、插值法

    2.异常值分析:

    简单统计分析:描述性统计

    3\sigma 原则:

    正态分布假设下:P(|x-\mu |>3\sigma )\leq 0.003

    不服从正态分布:也可以用远离平均值的多少倍标准差来描述。

    箱型图分析:异常值:小于QL-1.5IQR或大于QU+1.5IQR.QL下四分位数,QU上四分位数,IQR四分位数间距(IQR=QU-QL)

    二、统计量分析

    1.集中趋势度量

    (1)均值

    (2)中位数

    (3)众数

    2.离中趋势度量

    (1)极差=最大值-最小值

    (2)标准差

    (3)变异系数

    CV=标准差/均值

    (4)四分位数间距=    QU-QL

    3.计算相关系数

    (1)pearson相关系数

    (2)spearman秩相关系数

    pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布变量、分类或等级变量之间的关联性可采用spearman秩相关系数

    二 数据预处理

    1.数据清洗

    (1)缺失值处理

    (2)异常值处理

    删除含有异常值记录;

    视为缺失值;

    平均值修正;

    不处理。

    2.数据集成

    数据集成是指将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程

    3.数据变换

    (1)简单函数变化

    (2)规范化

    最小最大规范化

    零-均值规范化

    小数定标规范化

    (3)连续属性离散化

    相关文章

      网友评论

          本文标题:数据分析框架

          本文链接:https://www.haomeiwen.com/subject/qydlyhtx.html