数据质量分析
一、脏数据包括:
缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据。
1.缺失值处理:
删除、插补、不处理
插补方法:均值/中位数/众数、固定值、最临近插补、回归方法、插值法
2.异常值分析:
简单统计分析:描述性统计
3原则:
正态分布假设下:
不服从正态分布:也可以用远离平均值的多少倍标准差来描述。
箱型图分析:异常值:小于QL-1.5IQR或大于QU+1.5IQR.QL下四分位数,QU上四分位数,IQR四分位数间距(IQR=QU-QL)
二、统计量分析
1.集中趋势度量
(1)均值
(2)中位数
(3)众数
2.离中趋势度量
(1)极差=最大值-最小值
(2)标准差
(3)变异系数
CV=标准差/均值
(4)四分位数间距= QU-QL
3.计算相关系数
(1)pearson相关系数
(2)spearman秩相关系数
pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布变量、分类或等级变量之间的关联性可采用spearman秩相关系数
二 数据预处理
1.数据清洗
(1)缺失值处理
(2)异常值处理
删除含有异常值记录;
视为缺失值;
平均值修正;
不处理。
2.数据集成
数据集成是指将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程
3.数据变换
(1)简单函数变化
(2)规范化
最小最大规范化
零-均值规范化
小数定标规范化
(3)连续属性离散化
网友评论