数据分析框架

作者: 陈吻吻 | 来源:发表于2020-03-19 23:15 被阅读0次

数据分析概论
8 数据分析入门
共享单车类数据分析
数据分析框架
数据分析很难吗？其实3步就搞定
商务数据分析与应用学习笔记-数据分析的工作流程
数据结构--容器汇总（java & Android）
数据分析
数据分析的框架
数据分析思路

数据质量分析

一、脏数据包括：

缺失值、异常值、不一致的值、重复数据及含有特殊符号的数据。

1.缺失值处理：

删除、插补、不处理

插补方法：均值/中位数/众数、固定值、最临近插补、回归方法、插值法

2.异常值分析：

简单统计分析：描述性统计

3 $\sigma$ 原则：

正态分布假设下： $P(|x-\mu |>3\sigma )\leq 0.003$

不服从正态分布：也可以用远离平均值的多少倍标准差来描述。

箱型图分析：异常值：小于QL-1.5IQR或大于QU+1.5IQR.QL下四分位数，QU上四分位数，IQR四分位数间距（IQR=QU-QL）

二、统计量分析

1.集中趋势度量

（1）均值

（2）中位数

（3）众数

2.离中趋势度量

（1）极差=最大值-最小值

（2）标准差

（3）变异系数

CV=标准差/均值

（4）四分位数间距= QU-QL

3.计算相关系数

（1）pearson相关系数

（2）spearman秩相关系数

pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布变量、分类或等级变量之间的关联性可采用spearman秩相关系数

二数据预处理

1.数据清洗

（1）缺失值处理

（2）异常值处理

删除含有异常值记录；

视为缺失值；

平均值修正；

不处理。

2.数据集成

数据集成是指将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的过程

3.数据变换

（1）简单函数变化

（2）规范化

最小最大规范化

零-均值规范化

小数定标规范化

(3)连续属性离散化

网友评论

本文标题：数据分析框架

本文链接：https://www.haomeiwen.com/subject/qydlyhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据分析框架

相关文章

数据分析概论

8 数据分析入门

共享单车类数据分析