本文假设你有一定的统计基础,此文帮助你整理和回顾。
1 统计量与抽样
(1)统计量:样本的某种函数,它能将样本的信息加以概括,以便解决要研究的问题。没错,它是一种函数。
(2)常用统计量
最大值
最小值
样本均值
均值.png
样本方差
方差.png
K阶样本原点矩
K阶样本原点矩.png
在均值不为零的情况下,原点距只有纯数学意义。一阶矩原点矩即样本均值。
K阶样本中心距
K阶样本中心距.png
二阶中心距即方差,它告诉我们一个随机变量在均值附近波动的大小,方差越大,波动性越大。
2 数据集中与离散趋势的度量(描述性统计)
2.1 集中趋势


2.2 离散趋势
方差,标准差,极差,分位数,变异系数

import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean = np.mean(a)
a_median = np.median(a)
#求众数方法一—Numpy下求众数
#bincount():统计非负整数的个数,不能统计浮点数,返回从0到最大值,各个值出现的个数
counts = np.bincount(a)
#返回众数
a_mode1 = np.argmax(counts)
#求众数方法二——Scipy下stats模块【推荐】:能统计浮点数
from scipy import stats
a_mode2 = stats.mode(a)[0][0]
#求众数方法三——利用Pandas的mode方法,默认不考虑缺失值
import pandas as pd
ser = pd.Series(a)
a_mode3 = ser.mode(a)[0]
df = pd.DataFrame(a)
a_des = df.describe()
a_var = np.var(a)
a_std = np.std(a)
a_cv = np.std(a)/np.mean(a)
print('均值: %d' %a_mean)
print('---------' )
print('中位数: {0}'.format(a_median))
print('---------' )
print('众数: {0},{1},{2}'.format(a_mode1,a_mode2,a_mode3))
print('---------' )
print('方差: %d' %a_var)
print('---------' )
print('标准差: %d' %a_std)
print('---------' )
print('变异系数: %d' %a_cv)
print('---------' )
print('描述统计:{} '.format(a_des))
3 分布特征
3.1 概率函数
描述随机变量取值的概率。连续型随机变量的概率函数叫概率密度函数。离散型随机变量的概率函数大致等于时间出现的次数/实验总次数。
3.2 分布函数


(1)正态分布




import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
%matplotlib inline
s = list(np.random.randn(10000))
plt.hist(s,1000)
plt.show()
s = pd.Series(s)
print('偏度:',s.skew())
print('峰度:',s.kurt())

还是图省劲还说的明白!
参考来源:
https://github.com/datawhalechina/team-learning/tree/master/02%20%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E5%9F%BA%E7%A1%80%E6%96%B9%E6%B3%95/%E6%A6%82%E7%8E%87%E7%BB%9F%E8%AE%A1
网友评论