美文网首页
统计学 - 数据描述

统计学 - 数据描述

作者: Paycation | 来源:发表于2018-09-12 09:52 被阅读28次

前言

数据总是杂乱而大量的,我们需要快速抓住其特征,以此在脑海中形成一个实在的观念。我们看一个人,首先看外貌、形态、穿着,然后是举止、品格。对于数据也是一样,要先用一些指标来描述。

标准差

考虑一个数列关于其平均数的散布常常是有益的,这种散布我们用标准差 (SD 或者 std,standard deviation) 来度量。标准差指出了数列中的数离它们的平均数有多远,或者数列的项的相对于平均数的波动程度是否大(高逼格的叫法是离散程度)。公式中数值 x_1, x_2,x_3 ... x_n(皆为实数),其平均值 (算术平均值) 为 μ,标准差为 σ。写成公式:

\sigma = \sqrt{\dfrac{1}{n}\sum_{i=1}^n(x_i-\mu)^2}
粗略地,68\%(约2/3)的项在区间\left[\mu-\sigma, \mu+\sigma\right] 之间,而95\%的项在\left[\mu-2\sigma, \mu+2\sigma\right]之间(证明略)。

方差

其含义是每个值相对于平均值的距离的平均值。它反映了数据的波动情况,或者高逼格一点叫“离散程度”。这里是总体方差,对应的,我们有样本方差。样本方差可能很不同于总体方差。比如当数据为 1,1,1,10,10,10,总体方差为 20.25,而你恰好抽取 1,1,1,样本方差为 0,误差很大。
\sigma^2=\dfrac{1}{N}\sum_{i=1}^N(x_i-\mu)^2

经过一点简单的代数运算,我们可以得到方差的另一种形式:

\begin{aligned} \sigma^2&=\dfrac{1}{N}\sum_{i=1}^N(x_i-\mu)^2\\ &=\dfrac{1}{N}\sum_{i=1}^N(x_i^2-2x_i\mu+\mu^2)\\ &=\dfrac{1}{N}(\sum_{i=1}^Nx_i^2-2\mu\sum_{i=1}^Nx_i+N\mu^2)\\ &=\dfrac{1}{N}\sum_{i=1}^Nx_i^2 - \mu^2\\ \end{aligned}

利用 Python 计算标准差和方差:

import numpy as np

a1 = np.array([9,9,10,10,10,12])
a1.std() # 标准差
a1.var() # 方差

均方根

均方根 (RMS, root mean square) ,顾名思义,就是数列各项的值的平方和的平方根。
RMS = \sqrt{\dfrac{1}{n}\sum_{i=1}^n x_i^2}

均方根误差

均方根主要应用在物理学中,这里不多说(我也不懂物理),我们主要用它的兄弟:均方根误差 (RMSE, root mean square error) 来描述两个数列的“相合程度”。y_i 表示另一个数列的项。那么:
RMSE = \sqrt{\dfrac{1}{n}\sum_{i=1}^n (x_i-y_i)^2}
显然,均方根误差越小,两个数列越接近。

均方误差

均方误差 (MSE, mean squared error) 也就是均方根误差的平方。
MSE = \dfrac{1}{n}\sum_{i=1}^n (x_i-y_i)^2
利用 Python 计算:

from sklearn.metrics import mean_squared_error
import math

MSE = mean_squared_error([1,2],[1,4])
RMSE = math.sqrt(MSE)

后记

在线性回归模型中,我们可以用均方误差表示模型的 fit 程度。在机器学习中,这被称为“损失函数” (cost function),使得函数值最小的解,就是最终训练的结果。

平均数、最大值、最小值比较简单,不解释。

相关文章

  • 数据探索之参数估计

    统计学有两大主要分支,分别是描述性统计学和推断统计学。描述性统计学用于描述和概括数据的特征以及绘制各类统计图表。总...

  • 125、描述统计学基础

    学习数据分析最重要的基础之一是描述统计学,我推荐《深入浅出统计学》这本书,那什么是描述统计学呢? 描述统计学就是将...

  • 统计学基础知识一

    统计学可以分为:描述性统计学与推断统计学 描述统计学:使用特定的数字或图表来表现数据的集中程度和离散程度。例如:考...

  • 统计学 - 数据描述

    前言 数据总是杂乱而大量的,我们需要快速抓住其特征,以此在脑海中形成一个实在的观念。我们看一个人,首先看外貌、形态...

  • 《爱上统计学》——学习笔记

    Chapter1 什么是统计学(statistics)?统计学是描述一系列可用于描述/整理/解释资料或数据的统计工...

  • Matplotlib和Seaborn之描述统计学、离群值和坐标轴

    描述统计学、离群值和坐标轴范围 在创建图形和探索数据时,确保注意基本描述统计学传达的信息之外的信息。注意数据的各个...

  • 统计与统计数据

    统计学的两个分支:描述统计和推断统计。 什么是描述统计呢?研究数据收集、整理和描述的统计学方法,包括如何取得所需数...

  • 【读书笔记】赤裸裸的统计学

    1、什么是统计学 什么是数字、数值、数据 统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,...

  • 【小火杂谈】描述性统计的深入分析

    描述性统计是:报告数据、不做任何分析,不做任何猜测。 推断统计学:推断统计学建立到样本的基础上,作出推断。定量数据...

  • 统计学的基本概念

    统计学可以从有限数据中得出一般结论。 推断统计学的全部要点是从有限的数据中推断出一个一般结论。“描述性统计学”只是...

网友评论

      本文标题:统计学 - 数据描述

      本文链接:https://www.haomeiwen.com/subject/yalmgftx.html