数据探索
数据质量
注意点:脏数据(缺失值、异常值、不一致的值、重复数据以及包含特殊符号的数据)
1. 缺失值分析
2. 异常值分析
通过箱型图分析,找出异常值
dataFrame.boxplot()
3. 一致性分析
数据矛盾性、不相容性。 如:重复数据只更新一个version
数据特征分析
通过绘制图表、计算某些特征量等手段进行数据的特征分析。
1. 分布分析。如频率直方图(组数取值:极差/组距)等。
2. 对比分析。绝对输比较、相对数比较。
3. 统计量分析--衡量标准
集中趋势度量
均值 -- 对极端值很敏感
中位数, n为奇数时 , n为偶数时,
众数, 数据集中出现最频繁的值。
离中趋势度量
极差: 极差 = 最大值 - 最小值
标准差:
变异系数: CV = x 100% 主要用来比较两个或多个具有不同单位或者不同波动幅度的数据集离中趋势。
四分位数间距 取值越大, 数据的变异程度越大
4. 周期性分析
5. 贡献度分析 -- 帕累托分析,原理是帕累托法则,又称为20/80定律
6. 相关性分析
直接绘制散点图 确认相关性关系(完全正相关、完全负相关、非线性相关、正线性相关、负线性相关、不相关)
网友评论