美文网首页
Chap01 探索性数据分析

Chap01 探索性数据分析

作者: Kevin7lou | 来源:发表于2020-05-27 12:23 被阅读0次

    第1章 探索性数据分析

    统计学是一门应用科学关注的是数据的分析和建模。探索数据是所有数据科学项目的第一步。探索性数据分析(EDA)是统计学中一个相对新的领域。经典统计学几乎只注重推断,即从小样本得出关于整体数据的结论。约翰图基于1962年在论文“The Future of Data Analysis”中提出了“数据分析”的学科,并将统计推断包括在其中。于1977年出版了“Exploratory Data Analysis”一书,提出了“探索性数据分析”的研究领域。

    1.1 结构化数据的组成

    如何将大量的原始数据转换为可操作的信息,这是数据科学所面对的主要挑战。使用统计学的概念,需要将非结构化的原始数据结构化,或者出于研究目的采集数据。

    术语

    • 连续型数据:可以在一个区间内取任何值。同义词:区间数据,浮点型数据,数值数据。
    • 离散型数据:数据只能取整数,例如计数。同义词:整数型数据,计数型数据。
    • 分类型数据:数值只能从特定的集合中取值,表示一系列可能的分类。同义词:枚举数据,列举数据,因子数据,标称数据,多分支数据。
    • 二元数据:一种特殊的分类数据,数值只能从两个值中取一个。同义词:二分数据,逻辑型数据,指示性数据,布尔型数据。
    • 有序数据:具有明确排序的分类数据。同义词:有序因子数据。

    对于数据分析和预测建模来说,数据建模对于确定可视化类型,数据分析或者统计模型是非常重要的。使用数据类型可以改善计算性能。变量的数据类型决定了软件处理变量的计算方法。

    1.2 矩形数据

    矩形数据对象是数据科学分析中典型引用结构,矩形数据对象包括电子表格,数据库表格等。

    矩形数据本质是一个二维矩阵。通常一行表示一个记录(事例),列表示特征(变量)。数据通常并非一开始就是矩形形式的,先经过处理,才能转换为相应形式。

    1.2.1 数据框和索引

    传统的数据库表会指定一列或者多列作为索引,索引可以极大提高某些SQL查询的效率。

    • Python:pandas数据分析库中基本的举矩形数据结构是DataFrame对象,默认会创建一个整型索引,支持设置多级或者层次索引,以提高特定操作的效率。
    • R:基本的矩形数据结构是 data.frame 对象。data.frame 隐含有基于行次序的整数索引。

    术语差异

    统计学家在模型中使用预测变量去预测一个响应或因变量,而数据科学家使用特征来预测目标。对于一行数据,计算机科学家使用样本这一术语;而统计学家使用样本表示一个行的集合。

    1.2.2 非矩形数据结构

    时序数据记录了对同一变量的连续测量值,是统计预测方法的原始输入数据,也是物联网设备所产生对 数据的管家组成部分。

    空间数据结构用于地图和定位分析。在对象标识中,空间数据关注的是对象及空间坐标。字段视图关注空间中的小单元及相关的度量值。

    图形(或网络)数据结构用于表示物理上,社交网络上的抽象关系。图形结构对于网络优化和推荐系统等问题十分重要。

    1.2.3 扩展阅读

    1.3 位置估计

    变量表示了测量数据或者计数数据。探索数据的一个基本步骤就是获取每个特征(变量)的“典型值”。典型值是对数据最常出现位置的估计,即数据的集中趋势。

    术语

    术语 定义 同义词
    均值 所有数据之和除以数值的个数 平均数
    加权均值 各数值乘以相应的权重值,相加求和,再除以权重总和。 加权平均值
    中位数 使得数据集中有一半数据位于该值之上和之下 第50百分位数
    加权中位数 使得排序数据集中,分别有一半的权重之和位于该值之上和之下。
    切尾均值 从数据集中剔除一定数量的极值后,再求均值。 截尾均值
    稳健 对极值不敏感 耐抗性
    离群值 与大部分数值差异很大的数据值。 极值

    度量和估计量

    • 统计学的核心在于如何解释不确定度,因而使用估计量(estimate)
    • 数据科学则关注如何解决一个具体的商业或企业目标,因而使用度量(metric)。

    1.3.1 均值

    均值(Mean),又成为平均值。均值等于所有值的和除以值的个数。给定n个数据值:x_1, x_2, \dots, x_n,均值计算公式:

    \text { Mean } = \bar{x}=\frac{\sum_{i=1}^{n}x_i }{n}

    通常使用N(或者n)表示记录值或观测值的总数。在统计学中,用大写字母N表示总体;用小写字母n表示总体中的一个样本。

    • 切尾均值(Trimmed Mean)是均值的一个变体。如果使用x_{(1)}, x_{(2)}, \ldots, x_{(n)}表示一个有序数据集,其中是x_{(1)}最小值,x_{(n)}是最大值,那么去除 p个最大值和p个最小值的切尾均值的计算公式为:
      \text { Trimmed mean }=\bar{x}=\frac{\sum_{i=p+1}^{n-p} x_{(i)}}{n-2p}

    切尾均值消除了极值对均值的影响。举例,比赛中评委打分。

    • 加权均值(Weighted Mean)

    \text { Weighted mean }=\bar{x}_{w}=\frac{\sum_{i=1}^{n} w_{i} x_{i}}{\sum_{i}^{n} w_{i}}

    使用加权均值:

    • 一些值本质上要比其他的值更为多变,因此需要对多变的观测值赋予较低的权重。
    • 所采集的数据可能并未准确地表示我们想要测量的不同群组。

    1.3.2 中位数和稳健估计量(Robust Estimates)

    • 中位数(median)是位于有序数据集中间位置处的数值。

    • 离群值(Outliers)是距离数据集中其他所有值都很远的值。我们称中位数为一种对位置的稳健估计量,因为它不会受离群值(极端情况)的影响,而离群值会使结果产生偏差。

    1.3.3 位置估计的例子:人口和谋杀率

    相关文章

      网友评论

          本文标题:Chap01 探索性数据分析

          本文链接:https://www.haomeiwen.com/subject/twhwahtx.html