第1章 探索性数据分析
统计学是一门应用科学关注的是数据的分析和建模。探索数据是所有数据科学项目的第一步。探索性数据分析(EDA)是统计学中一个相对新的领域。经典统计学几乎只注重推断,即从小样本得出关于整体数据的结论。约翰图基于1962年在论文“The Future of Data Analysis”中提出了“数据分析”的学科,并将统计推断包括在其中。于1977年出版了“Exploratory Data Analysis”一书,提出了“探索性数据分析”的研究领域。
1.1 结构化数据的组成
如何将大量的原始数据转换为可操作的信息,这是数据科学所面对的主要挑战。使用统计学的概念,需要将非结构化的原始数据结构化,或者出于研究目的采集数据。
术语
- 连续型数据:可以在一个区间内取任何值。同义词:区间数据,浮点型数据,数值数据。
- 离散型数据:数据只能取整数,例如计数。同义词:整数型数据,计数型数据。
- 分类型数据:数值只能从特定的集合中取值,表示一系列可能的分类。同义词:枚举数据,列举数据,因子数据,标称数据,多分支数据。
- 二元数据:一种特殊的分类数据,数值只能从两个值中取一个。同义词:二分数据,逻辑型数据,指示性数据,布尔型数据。
- 有序数据:具有明确排序的分类数据。同义词:有序因子数据。
对于数据分析和预测建模来说,数据建模对于确定可视化类型,数据分析或者统计模型是非常重要的。使用数据类型可以改善计算性能。变量的数据类型决定了软件处理变量的计算方法。
1.2 矩形数据
矩形数据对象是数据科学分析中典型引用结构,矩形数据对象包括电子表格,数据库表格等。
矩形数据本质是一个二维矩阵。通常一行表示一个记录(事例),列表示特征(变量)。数据通常并非一开始就是矩形形式的,先经过处理,才能转换为相应形式。
1.2.1 数据框和索引
传统的数据库表会指定一列或者多列作为索引,索引可以极大提高某些SQL查询的效率。
- Python:pandas数据分析库中基本的举矩形数据结构是
DataFrame
对象,默认会创建一个整型索引,支持设置多级或者层次索引,以提高特定操作的效率。 - R:基本的矩形数据结构是
data.frame
对象。data.frame
隐含有基于行次序的整数索引。
术语差异
统计学家在模型中使用预测变量去预测一个响应或因变量,而数据科学家使用特征来预测目标。对于一行数据,计算机科学家使用样本这一术语;而统计学家使用样本表示一个行的集合。
1.2.2 非矩形数据结构
时序数据记录了对同一变量的连续测量值,是统计预测方法的原始输入数据,也是物联网设备所产生对 数据的管家组成部分。
空间数据结构用于地图和定位分析。在对象标识中,空间数据关注的是对象及空间坐标。字段视图关注空间中的小单元及相关的度量值。
图形(或网络)数据结构用于表示物理上,社交网络上的抽象关系。图形结构对于网络优化和推荐系统等问题十分重要。
1.2.3 扩展阅读
- Python中关于数据框的文档:Pandas DataFrame
1.3 位置估计
变量表示了测量数据或者计数数据。探索数据的一个基本步骤就是获取每个特征(变量)的“典型值”。典型值是对数据最常出现位置的估计,即数据的集中趋势。
术语
术语 | 定义 | 同义词 |
---|---|---|
均值 | 所有数据之和除以数值的个数 | 平均数 |
加权均值 | 各数值乘以相应的权重值,相加求和,再除以权重总和。 | 加权平均值 |
中位数 | 使得数据集中有一半数据位于该值之上和之下 | 第50百分位数 |
加权中位数 | 使得排序数据集中,分别有一半的权重之和位于该值之上和之下。 | |
切尾均值 | 从数据集中剔除一定数量的极值后,再求均值。 | 截尾均值 |
稳健 | 对极值不敏感 | 耐抗性 |
离群值 | 与大部分数值差异很大的数据值。 | 极值 |
度量和估计量
- 统计学的核心在于如何解释不确定度,因而使用估计量(estimate)
- 数据科学则关注如何解决一个具体的商业或企业目标,因而使用度量(metric)。
1.3.1 均值
均值(Mean),又成为平均值。均值等于所有值的和除以值的个数。给定n个数据值:,均值计算公式:
通常使用(或者)表示记录值或观测值的总数。在统计学中,用大写字母表示总体;用小写字母表示总体中的一个样本。
-
切尾均值(Trimmed Mean)是均值的一个变体。如果使用表示一个有序数据集,其中是最小值,是最大值,那么去除 个最大值和个最小值的切尾均值的计算公式为:
切尾均值消除了极值对均值的影响。举例,比赛中评委打分。
- 加权均值(Weighted Mean)
使用加权均值:
- 一些值本质上要比其他的值更为多变,因此需要对多变的观测值赋予较低的权重。
- 所采集的数据可能并未准确地表示我们想要测量的不同群组。
1.3.2 中位数和稳健估计量(Robust Estimates)
-
中位数(median)是位于有序数据集中间位置处的数值。
-
离群值(Outliers)是距离数据集中其他所有值都很远的值。我们称中位数为一种对位置的稳健估计量,因为它不会受离群值(极端情况)的影响,而离群值会使结果产生偏差。
网友评论