数据探索有助于选择合适的数据预处理和数据分析技术。
一、汇总统计
汇总统计是刻画数据特征的数值,汇总的特征包括频率、位置和散布等
例如:位置 – 均值(mean) 散布 – 标准差(standard deviation)
大部分的汇总统计可以通过顺序访问一次数据计算得到
频率和众数
属性值的频率(frequency)是具有该属性值的对象个数与数据集中所有对象的个数的百分比
属性的众数(mode)是具有最高频率的属性值
频率和众数一般用于分类属性
百分位数
对于有序的数据,百分位数(percentile)更有意义
定义:给定一个序数属性或连续属性 x 和一个0到100之间的整数 p, 第 p 个百分位数 xp是x 的一个值,使得 x 的 p% 的观测值小于xp
求第k个百分位数的方法:
n个数从小到大排序,求(n-1)×k%,整数部分i,小数部分j;
第k个百分位数=(1-j)×第(i+1)个数 + j×第(i+2)个数
位置: 均值和中位数
均值是连续属性值集最常用的位置度量,均值对离群点非常敏感!
散布: 极差和方差
属性的极差(range)是连续属性最大值与最小值之间的差值(即最大散步)
方差(variance)和标准差(standard deviation)是连续属性值集的最常用的散步度量
但极差和方差对离群点仍然敏感,故常用其他估计
绝对平均偏差 中位数绝对偏差 四分位数极差二、可视化
可视化需要将数据转换成可视的形式(图形或表格的形式),使得能够借此分析或报告数据的特征和数据对象或属性之间的关系
为什么数据可视化是强大的数据探索技术?
1、人们能够快速分析大量的可视化信息
2、能发现一般的模式和趋势
3、能发现离群点和异常模式
针对单个属性:一维直方图、盒状图
针对多个属性:二维直方图、散布图、矩阵图
- 直方图(histogram)
显示单个数值属性取值的分布,将可能的值分散到箱中,显示落入每个箱中的对象数,使用条形显示箱中对象的个数 - 二维直方图:显示两个数值属性取值的联合分布
- 盒状图(box plots):显示单个数值属性取值的分布(通过百分位数的位置)
- 散布图(scatter plots )
显示数据集中两三个属性之间的关系,结合类标号可以显示属性将类分开的程度
属性值决定绘制点的位置,最通用二维散布图,有时也使用三维散布图
通常,其他属性可以使用点标记的大小、形状和颜色等表示
可以使用散布图阵列汇总多对属性的关系
- 矩阵图(matrix plots)
显示(高维的)数据矩阵(或相似矩阵),
若不同的属性具有不同的值域,则可对属性标准化
——防止具有最大量值的属性在视觉上左右图形
若类标号已知,则重新排列数据矩阵的次序,使同类的所有对象在一起
——使得容易检查一个类的所有对象是否在某些属性上具有相似的属性值
若类标号已知,对相似矩阵的行列排序,使得同类的所有对象在一起
——可以目视评估每个类的内聚性,与其他类的分离性
网友评论