Chap01 探索性数据分析

作者: Kevin7lou | 来源:发表于2020-05-27 12:23 被阅读0次

第1章探索性数据分析

统计学是一门应用科学关注的是数据的分析和建模。探索数据是所有数据科学项目的第一步。探索性数据分析（EDA）是统计学中一个相对新的领域。经典统计学几乎只注重推断，即从小样本得出关于整体数据的结论。约翰图基于1962年在论文“The Future of Data Analysis”中提出了“数据分析”的学科，并将统计推断包括在其中。于1977年出版了“Exploratory Data Analysis”一书，提出了“探索性数据分析”的研究领域。

1.1 结构化数据的组成

如何将大量的原始数据转换为可操作的信息，这是数据科学所面对的主要挑战。使用统计学的概念，需要将非结构化的原始数据结构化，或者出于研究目的采集数据。

术语

连续型数据：可以在一个区间内取任何值。同义词：区间数据，浮点型数据，数值数据。
离散型数据：数据只能取整数，例如计数。同义词：整数型数据，计数型数据。
分类型数据：数值只能从特定的集合中取值，表示一系列可能的分类。同义词：枚举数据，列举数据，因子数据，标称数据，多分支数据。
二元数据：一种特殊的分类数据，数值只能从两个值中取一个。同义词：二分数据，逻辑型数据，指示性数据，布尔型数据。
有序数据：具有明确排序的分类数据。同义词：有序因子数据。

对于数据分析和预测建模来说，数据建模对于确定可视化类型，数据分析或者统计模型是非常重要的。使用数据类型可以改善计算性能。变量的数据类型决定了软件处理变量的计算方法。

1.2 矩形数据

矩形数据对象是数据科学分析中典型引用结构，矩形数据对象包括电子表格，数据库表格等。

矩形数据本质是一个二维矩阵。通常一行表示一个记录（事例），列表示特征（变量）。数据通常并非一开始就是矩形形式的，先经过处理，才能转换为相应形式。

1.2.1 数据框和索引

传统的数据库表会指定一列或者多列作为索引，索引可以极大提高某些SQL查询的效率。

Python：pandas数据分析库中基本的举矩形数据结构是DataFrame对象，默认会创建一个整型索引，支持设置多级或者层次索引，以提高特定操作的效率。
R：基本的矩形数据结构是 data.frame 对象。data.frame 隐含有基于行次序的整数索引。

术语差异

统计学家在模型中使用预测变量去预测一个响应或因变量，而数据科学家使用特征来预测目标。对于一行数据，计算机科学家使用样本这一术语；而统计学家使用样本表示一个行的集合。

1.2.2 非矩形数据结构

时序数据记录了对同一变量的连续测量值，是统计预测方法的原始输入数据，也是物联网设备所产生对数据的管家组成部分。

空间数据结构用于地图和定位分析。在对象标识中，空间数据关注的是对象及空间坐标。字段视图关注空间中的小单元及相关的度量值。

图形（或网络）数据结构用于表示物理上，社交网络上的抽象关系。图形结构对于网络优化和推荐系统等问题十分重要。

1.2.3 扩展阅读

Python中关于数据框的文档：Pandas DataFrame

1.3 位置估计

变量表示了测量数据或者计数数据。探索数据的一个基本步骤就是获取每个特征（变量）的“典型值”。典型值是对数据最常出现位置的估计，即数据的集中趋势。

术语

术语	定义	同义词
均值	所有数据之和除以数值的个数	平均数
加权均值	各数值乘以相应的权重值，相加求和，再除以权重总和。	加权平均值
中位数	使得数据集中有一半数据位于该值之上和之下	第50百分位数
加权中位数	使得排序数据集中，分别有一半的权重之和位于该值之上和之下。
切尾均值	从数据集中剔除一定数量的极值后，再求均值。	截尾均值
稳健	对极值不敏感	耐抗性
离群值	与大部分数值差异很大的数据值。	极值

度量和估计量

统计学的核心在于如何解释不确定度，因而使用估计量（estimate）

数据科学则关注如何解决一个具体的商业或企业目标，因而使用度量（metric）。

1.3.1 均值

均值（Mean），又成为平均值。均值等于所有值的和除以值的个数。给定n个数据值： $x_1, x_2, \dots, x_n$ ，均值计算公式：

$\text { Mean } = \bar{x}=\frac{\sum_{i=1}^{n}x_i }{n}$

通常使用 $N$ （或者 $n$ ）表示记录值或观测值的总数。在统计学中，用大写字母 $N$ 表示总体；用小写字母 $n$ 表示总体中的一个样本。

切尾均值（Trimmed Mean）是均值的一个变体。如果使用 $x_{(1)}, x_{(2)}, \ldots, x_{(n)}$ 表示一个有序数据集，其中是 $x_{(1)}$ 最小值， $x_{(n)}$ 是最大值，那么去除 $p$ 个最大值和 $p$ 个最小值的切尾均值的计算公式为：
$\text { Trimmed mean }=\bar{x}=\frac{\sum_{i=p+1}^{n-p} x_{(i)}}{n-2p}$

切尾均值消除了极值对均值的影响。举例，比赛中评委打分。

加权均值（Weighted Mean）

$\text { Weighted mean }=\bar{x}_{w}=\frac{\sum_{i=1}^{n} w_{i} x_{i}}{\sum_{i}^{n} w_{i}}$

使用加权均值：

一些值本质上要比其他的值更为多变，因此需要对多变的观测值赋予较低的权重。

所采集的数据可能并未准确地表示我们想要测量的不同群组。

1.3.2 中位数和稳健估计量（Robust Estimates）

中位数（median）是位于有序数据集中间位置处的数值。
离群值（Outliers）是距离数据集中其他所有值都很远的值。我们称中位数为一种对位置的稳健估计量，因为它不会受离群值（极端情况）的影响，而离群值会使结果产生偏差。

1.3.3 位置估计的例子：人口和谋杀率

网友评论

本文标题：Chap01 探索性数据分析

本文链接：https://www.haomeiwen.com/subject/twhwahtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Chap01 探索性数据分析

第1章探索性数据分析

1.1 结构化数据的组成