美文网首页
数挖——探索数据

数挖——探索数据

作者: EvanForEver | 来源:发表于2018-04-18 19:49 被阅读23次

数据探索有助于选择合适的数据预处理和数据分析技术。

一、汇总统计

汇总统计是刻画数据特征的数值,汇总的特征包括频率、位置和散布等
例如:位置 – 均值(mean) 散布 – 标准差(standard deviation)
大部分的汇总统计可以通过顺序访问一次数据计算得到

频率和众数

属性值的频率(frequency)是具有该属性值的对象个数与数据集中所有对象的个数的百分比
属性的众数(mode)是具有最高频率的属性值

频率和众数一般用于分类属性

百分位数

对于有序的数据,百分位数(percentile)更有意义
定义:给定一个序数属性或连续属性 x 和一个0到100之间的整数 p, 第 p 个百分位数 xp是x 的一个值,使得 x 的 p% 的观测值小于xp

求第k个百分位数的方法:
n个数从小到大排序,求(n-1)×k%,整数部分i,小数部分j;
第k个百分位数=(1-j)×第(i+1)个数 + j×第(i+2)个数

位置: 均值和中位数

均值是连续属性值集最常用的位置度量,均值对离群点非常敏感!

截断均值:指定百分数p,丢弃高端和低端各(p/2)%的数据,再计算均值 中位数:

散布: 极差和方差

属性的极差(range)是连续属性最大值与最小值之间的差值(即最大散步)
方差(variance)和标准差(standard deviation)是连续属性值集的最常用的散步度量

但极差和方差对离群点仍然敏感,故常用其他估计

绝对平均偏差 中位数绝对偏差 四分位数极差

二、可视化

可视化需要将数据转换成可视的形式(图形或表格的形式),使得能够借此分析或报告数据的特征和数据对象或属性之间的关系

为什么数据可视化是强大的数据探索技术?
1、人们能够快速分析大量的可视化信息
2、能发现一般的模式和趋势
3、能发现离群点和异常模式

针对单个属性:一维直方图、盒状图
针对多个属性:二维直方图、散布图、矩阵图

  • 直方图(histogram)
    显示单个数值属性取值的分布,将可能的值分散到箱中,显示落入每个箱中的对象数,使用条形显示箱中对象的个数
  • 二维直方图:显示两个数值属性取值的联合分布
  • 盒状图(box plots):显示单个数值属性取值的分布(通过百分位数的位置)
  • 散布图(scatter plots )
    显示数据集中两三个属性之间的关系,结合类标号可以显示属性将类分开的程度
    属性值决定绘制点的位置,最通用二维散布图,有时也使用三维散布图
    通常,其他属性可以使用点标记的大小、形状和颜色等表示
    可以使用散布图阵列汇总多对属性的关系
鸢尾花属性的散布图阵列
  • 矩阵图(matrix plots)
    显示(高维的)数据矩阵(或相似矩阵),
     若不同的属性具有不同的值域,则可对属性标准化
    ——防止具有最大量值的属性在视觉上左右图形
     若类标号已知,则重新排列数据矩阵的次序,使同类的所有对象在一起
    ——使得容易检查一个类的所有对象是否在某些属性上具有相似的属性值
     若类标号已知,对相似矩阵的行列排序,使得同类的所有对象在一起
    ——可以目视评估每个类的内聚性,与其他类的分离性
鸢尾花数据集的数据矩阵图

相关文章

  • 数挖——探索数据

    数据探索有助于选择合适的数据预处理和数据分析技术。 一、汇总统计 汇总统计是刻画数据特征的数值,汇总的特征包括频率...

  • 数挖——数据

    数据的构成:对象(object)及其属性(attribute) 属性是对象的性质或特性属性也称作变量(variab...

  • Chap01 探索性数据分析

    第1章 探索性数据分析 统计学是一门应用科学关注的是数据的分析和建模。探索数据是所有数据科学项目的第一步。探索性数...

  • 探索性的数据分析

    直白地讲,探索性数据分析表现为画直方图或茎叶图。其有别于验证性数据分析。验证性数据分析偏向于模型和假设。在探索性数...

  • 如何做数据测试?

    -- 转自挖数网 自己备份用 这个网貌似挂掉了 数据质量是数据应用的核心基础,数据测试是非常重要的一环,若质量把控...

  • 数据挖

    心心念念的数据挖来了,蛙数据 之前一直恐惧代码,但是说来好笑,我是计算机专业,半道出家。。。其实仔细想想,SQL又...

  • 数据湖和数据仓库的建设,到底为了什么?由此产生的岗位区别在哪

    数据湖这个大坑,是怎么挖的? 数据在刚刚开始的时候,还是小体量,就好比创业公司,还不足够引起人们的注意。 但是当数...

  • 数据探索

    数据探索是拿到数据要做的第一步,目的是对要分析的数据有个大概的了解。弄清数集质量,大小,特征和样本数量,数据类型,...

  • 《数据思维课》学习笔记之五

    课程的第一模块,是感知数据,共有六讲。 昨天到现在,学习了本模块的后四讲。 一、如何去探索数据背后隐藏的信息? 数...

  • 【​单细胞转录组】inferCNV第二次总结

    InferCNV的目的: InferCNV用于探索肿瘤单细胞RNA-Seq数据,以鉴定大规模染色体拷贝数变异的证据...

网友评论

      本文标题:数挖——探索数据

      本文链接:https://www.haomeiwen.com/subject/uorbkftx.html