统计学：从零开始

作者: Lunderfoot | 来源:发表于2020-08-12 16:54 被阅读0次

统计学：从零开始
外国统计学优秀著作译丛统计学
统计学2 集中趋势总体样本方差
2008-3-1，开始炒股了
统计学学习方法推荐
《统计学习方法-第2版》第1章概论
《统计学习方法》读书笔记（一）
大数据统计基础前四周笔记
统计学基础知识一
简单理解统计学1-统计学常用的基础概念

统计学的研究

统计数据来源
计算方法
有效使用方法并得出结论

为何学习统计学

做出客观决策
以最有效的方式传达自己想传达的信息
有时候也有误导性

1.信息图形化

类别数据（定性数据）
数值型数据（定量数据）
频数：一种统计方法，用于描述一个类别中有多少个项
频数密度：分组数据中的频数的密集度。频数密度=频数/组距
直方图：专门提现分组数据的图形，看起来像条形图，但高度等于频数密度而不是频数
1.绘制时每个长方形宽度与组距成比例
2.频数通过长方形面积求出
3.长方形间没有间隔
累积频数：到某个特定数值为止的总频数，即频数的累计总和
折线图
1.需要体现趋势时使用折线图，如基于时间的趋势
2.可用折线图显示多批数据
3.可用折线图进行基本预测。只要延长趋势线
4.不要使用折线图显示类别数据，除非显示每一个类别数据，如基于时间的趋势。要为每一个类别画一条线
5.变体：累计频数图，所显示的是到某个特定值为止的总频数

2.集中趋势的量度

平均数

均值 μ=Σx/n (缪、西格玛)求均值
中位数
众数

3.分散性与变异性的量度

全距
1.也叫极差，用于量度数据集分散程度的一种方法。算法为上界-下界
2.全距只是对数据分布情况极其基本的描述
3.缺点：不能指出数据的真实形态以及数据是否包含异常值，无法看出数据在差值范围内的聚散情况
四分卫数
1.将整批数据一分为四的几个数值
2.四分位距：即一个不易受异常值影响的“迷你距”。四分位距=上四分位数-下四分位数
3.下四分位数：n/4不是整数向下取整
4.上四分位数：3n/4不是整数向上取整
百分位数
对于划分档次非常有用
箱线图
专门用来显示各种距
方差
1.量度数据分散性的一种方法，Σ(x-μ)²/n
2.缺点：难以根据距离的平方数去考虑分散性
3.速算：Σx²/n-μ²
标准差
1.方差的平方根，σ
2.标准差越小，数值离均值越近
标准分
1.z=(x-μ)/σ
2.对不同数据集的数据进行比较
3.标准分=距离标准差个数
4.可以将异常值定义为偏离均值3个标准差的数值（小心对待）

4.概率计算

P(A)发生事件A的概率 = n(A)发生事件A的可能数目/n(S)所有可能结果的数目
维恩图：概率的图形表示
概率树： 能得心应手处理条件概率
已知B已经发生的条件下A的概率 P(A|B) ，P(A|B)=P(A∩B)/P(B)
贝叶斯定理
P(A|B)=P(A)P(B|A)/(P(A)P(P(B|A)+P(A')*P(B|A'))
用途：过滤电子邮件及检测垃圾邮件，还有医学试验
相互独立事件： P(A∩B) = P(A)*P(B)

5.离散概率的分布应用

期望
E(x)=ΣxP(X=x)
指出每一局赌局得到的平均收益
计算X的方差： Var(X)=E(X-μ)²=Σ(x-μ)²P(X=x)
概率分布的方差和标准差是量度一些特定数值的概率的分散情况的方法
比如老虎机方差越小，每一局的平均收益越接近期望值；方差越大整体收益的可靠性越低
随机变量，独立事件

E(aX+b)=aE(X)+b
Var(aX+b)=a²Var(X)
E(X1+X2+...+Xn)=nE(X),Var(X1+X2+...+Xn)=nVar(X)
Var(X+Y)=Var(X-Y)=Var(X)+Var(Y)
Var(aX+BY)=Var(aX-bY)=a²Var(X)+b²Var(y)

6.排列与组合

n!
n的阶乘
为n个对象排位,包括重复对象
n!/j!k!m!...
从n个对象取出r个对象进行排位
ⁿPr=n!/(n-r)!
选择函数：从n个对象先去r个对象的选取方式的数目
ⁿCr=n!/r!(n-r)!

7.几何分布、二项分布及泊松分布

几何分布

概率的几何分布：（r-1）次失败1次成功
P(X=r)=q^(r-1)p

取得一次成功需要试验r次以上的概率：P(X>r)=q^r

P(X≤r)+P(X>r)=1
P(X≤r)=1-P(X>r)
P(X≤r)=1-q^r

变量X的概率符合几何分布，单次成功概率为P可以写作：X~Geo(p)

何时使用几何分布
进行多次相互独立的试验时可使用几何分布（每次试验的概率保持不变），每一次试验都存在成功或失败的可能

几何分布的期望和方差
E(X)=1/p
Var(X)=q/p^2

二项分布

二项分布的期望和方差
E(X)=np
Var(X)=npq

何时使用二项分布
试验次数固定，求成功一定次数的概率

选择题答对n个题中r题的概率
p(X=r)=ⁿCrp^rq^(n-r)

p是每次试验的成功概率，n是试验次数，写作：X~B(n,p)

泊松分布

X~Po(λ)

条件

单独时间在给定区间内随机、独立地发生，区间可以是时间或空间

已知该区间内的事件平均发生次数（发生率入），且为有限数值。

P(X=r)=e^-λλ^r/r!*

泊松分布的期望和方差
E(X)=λ
Var(X)=λ

和其他分部差别
不需要做一系列试验，但它描述了事件在特定区间内的发生次数

当n很大（大于50），p很小（小于0.1），计算ⁿCr比较困难，使用泊松分布进行近似计算可以代替二项分布进行计算
X~Po(np)
X+Y~Po(λx+λy)

8、正态分布的运用：保持正态

离散数据
数据由一个个单独的数值组成，每一个数值都有相应概率
可以用概率密度函数描述连续随机变量的概率分布
对于连续概率，必须通过概率密度曲线下方的面积得出概率
X~N(μ，σ²)
通过概率表可查出P(Z<z)的概率，Z~N(0,1)，Z=（X-μ）/σ
正态分布也叫高斯分布

9、再谈正态分布的运用：超越正态

求解概率
1.算出分布和范围
2.将分步标准化
3.查找概率
aX+b~N(aμ+b，a²σ²)
X-Y~N(μx-μy，σ²x+σ²y)
如果X~N(μ，σ²)
X1+X2+...+Xn~N(nμ，nσ²)
在一些特定情况下，如果X~B(n,p)，当np>5且nq<5时，可以用正态分布近似代替二项分布，如果用正态分布近似代替二项分布，则需要进行连续性修正，这才能确保得到正确的结果
在特定条件下，可以使用正态分布近似泊松分布，如果X~Po(λ) 且λ>15,则可以用X~N(λ，λ)近似X，需要进行连续性修正确保得到正确结果

10、统计抽样的运用：抽取样本

偏倚的来源
1.抽样空间中条目不齐全，未包含目标总体中的所有对象
2.抽样单位不准确
3.为样本选取的抽样单位未出现在实际样本中
4.调查问卷的问题设计不当
5.样本缺乏随机性
目标总体
必须确定目标总体。仔细考虑目标总体有助于避免偏倚
抽样单位 (一块巧克力)
抽样空间 (限量版巧克力的总体数量)
如何选择样本

简单随机抽样（抽签、随机编号生成器）
重复抽样
不重复抽样

分层抽样
将巧克力分成不同颜色再简单随机抽样

整群抽样
对一盒盒巧克力简单随机抽样，可能做不到完全随机

系统抽样
每10个单位抽样一次，如果总体存在循环模式，样本会有偏倚

11、总体和样本的估计：进行预测

x拔(样本均值)=Σx/n
总体均值点估计量=样本均值
总体方差估计量=s²=Σ(x-x拔)²/(n-1)
大部分情况都是用样本数据估计总体方差，n-1比n能得出精确性稍微高一点，因为样本数据的方差很可能略小于总体方差
总体成功比例的点估计量=样本成功比例=成功数目/样本数目
点估计量

X（样本中红色糖球的数目）~B(n,p)
Ps（样本成功比例）=X/n
E(Ps)=E(X)/n
Var(Ps)=pq/n
比例标准误差=√pq/n

当n很大时，大于30，Ps接近正态分布
Ps~N(p,pq/n)
需要对抽样分布进行连续性修正（加减1/2n）

点估计量是有价值的，但也存在小小误差，没有使用整个整体

均值的抽样分布

E(x拔)=μ

Var(x拔)=σ²/n

均值的标准误差=σ/√n

中心极限定理：X拔~N(μ,σ²/n)

中心极限定理求出的概率与样本均值有关，与样本中的数值无关，因此不需要进行任何连续性修正

12、置信区间的构建：自信地猜测

解置信区间四步骤
1.选择总体统计量
2.求出其抽样分布（求得均值的抽样分布期望和方差，带入除μ以外各统计量的数值）
3.决定置信水平
4.求出置信上下限
置信区间简便算法
t分布

(x拔-t(v)s/√n,x拔+t(v)s/√n)

v=n-1

当总体符合正态分布而样本很小时，x符合t分布，需要使用样本数据估计总体方差

13、假设检验的运用：研究证据

6步骤
1.确定要进行检验的假设
2.选择检验统计量
3.确定用于做决策的拒绝域
4.求出检验统计量的p值
5.查看样本结果是否位于拒绝域内
6.作出决策
第一类错误
错误拒绝原假设所引起的结果 α——检验的显著性水平
第二类错误
1.在备择假设实际上为真的情况下接受原假设所引起的结果 β
2.为了求β，备择假设必须为一个特定数值，求出检验拒绝域以外的数值范围，然后求出以H1为条件得到这个数值范围的概率

14、X²分布：继续探讨

X²=Σ(O-E)²/E O代表观察频数、E代表期望频数
X²分布用途
检验拟合优度
检验两个变量的独立性
X²~X²(v)
用显著性水平α进行检验写作：X²α(v)，使用X²概率表求X²分布的绝对域
X²分布进行假设检验步骤
1.确定要进行检验的假设及其备择假设
2.求出期望频数和自由度
3.确定用于做决策的拒绝域
4.计算检验统计量X²
5.查看检验统计量是否位于拒绝域以内
6.作出决策
检验时总是使用右尾，因为检验统计量越大，观察频数与期望频数的差别越大
自由度v计算

二项分布
已知p：v=n-1
未知p：必须通过观察频数估计：v=n-2

泊松分布
已知λ：v=n-1
未知λ，必须通过观察频数进行估计：v=n-2

正态分布
已知μ和σ²：v=n-1
未知μ和σ²，必须通过观察频数进行估计：v=n-3

在两个变量的独立性检验中，若列联表为h行k列，则v=(h-1)(k-1)

15、相关与回归

单变量数据无法显示多组数据之间的关系，二变量数据可以
误差平方和SS-E = Σ(y-ŷ)²
y = a + bx
斜率b= Σ((x-x拔)(y-ȳ))/Σ(x-x拔)²
a = ȳ - bx拔
相关系数r
r=bSx/Sy
Sx:样本中x值的标准差
Sx = √(Σ(x-x拔)²/(n-1))
Sy:样本中y值的标准差
Sy = √(Σ(y-ȳ)²/(n-1))

书中未涉及

1. 数据的其他表现形式
点图、茎叶图

2. 分布剖析

大部分数据落在概率分布中的那个区域
适用于正态分布的经验法则
大约68%的数值位于距离均值1个标准差范围
大约95%的数值位于距离均值2个标准差范围
大约99.7%的数值位于距离均值3个标准差范围
适用于任何分布的切比雪夫定理
至少75%的数值位于距离均值2个标准差的范围内
至少89%的数值位于距离均值3个标准差的范围内
至少94%的数值位于距离均值4个标准差的范围内

3. 实验
一个好实验具备哪些特点？
实验设计

4. 最小二成回归法的其他公式