机器学习或量化交易必备的统计学基础

作者: 混淆的概念1 | 来源:发表于2019-10-19 23:29 被阅读0次

机器学习或量化交易必备的统计学基础
斜杠中年--机器学习
2020-03-11
如何避免量化交易策略模型过度拟合
简单几步，教你在服务器上实现量化交易（程序化交易）
AI开发日志代码资源等
利用Python编写量化交易项目理性投资股票（一）
统计套利揭秘
花书机器学习基础 (阅读笔记)
回测曲线要上天？其实你只是在过拟合！

Chapter 1. 统计基本概念

1. 请用一句话解释什么是统计学?

统计学是帮助我们理解世界的工具（有点装了），那我换个说法，统计学是收集、整理、描述和解释数据的科学。 统计分析方法主要分两块，描述统计(descriptive statistics)负责整理并描述收集到的数据，怎么描述呢？一般就是用描述统计量比如说告诉你这次英语考试班里同学平均分是多少，或用图表更加直观。推断统计(inferential statistics)就是用较小群体的数据来推断较大群体的特征。这个较小群体我们叫样本(sample)，较大群体我们叫总体(population)。

2. 数据是什么?

数据(data)就是事实或观察到的结果，这句并不重要，重要的是请记住以下两点，第一数据不仅限于数字（虽然他有个“数”这个字），第二是数据不等于信息，可以这么说，信息可以简单地理解为数据中包含的有用的内容。
数据=信息+数据冗余

图1 数据与信息的关系

3. 数据长什么样?

图2 泰坦尼克号数据集

上面的图2就是一个数据集（dataset）的一部分，是数据集的一个子集。其中每一条，就是数据中的每一行就是一个单独的个体（element），是指搜集数据的实体，在这里就是每一个登上泰坦尼克号的乘客。个体的名称就是乘客名字，在数据的第四列。数据的变量（variable）指个体中我们感兴趣的特征，上图中有9个变量，分别是仓位等级（Pclass），性别（Sex），年纪（Age），随行亲属（Sibsp）和（Parch），票号（Ticket），价格（Fare），仓号（Cabin），登船港口（Embarked）。这里面是否存活（Survived）是标签（Label）列，不属于变量，它可能是我们通过变量要预测的结果，而第一列PasengerID属于索引列，也不属于变量。每一个乘客的这些变量集合称为一个观测值（observation）。十二个用户有十二个观测值。

4.数据都分什么类型？

数据可分为分类型数据（categorical data）和数量型数据（quantitative data）。比如图2中的性别，登船口岸，票号，仓号，就是分类型数据，是用标记或名称来识别项目的类型。而其中年龄，亲属数量，票价就属于数量型数据，数量型数据可以加减乘数，或求平均数等操作。留一个思考题给各位，上图中的仓位等级Pclass是什么类型的数据呢？

Chapter 2. 描述统计学

上面提到了统计学方法分描述统计和推断统计，那么问题来了

5.描述统计都有什么方法呢？

描述统计主要分表格法，图刑法，和数值方法。

Chapter 3.概率

什么是概率？为什么学习概率？概率和频率有什么不同？

概率（probability）是一个事件发生可能性的数值度量，用来度量事件的不确定性程度。事件的概率总是介于0到1之间。等于0说明这件事没可能发生，等于1说明这件事必然发生。学习概率是我们理解正态曲线（之后我们会详细讨论）的基础，也是理解推论统计的基础。
例如，从一批有正品和次品的商品中，随意抽取一件，“抽得的是正品”就是一个随机事件。设对某一随机现象进行了n次试验（experiment）与观察，其中A事件出现了m次，即其出现的频率（frequency）为m/n。经过大量反复试验，常有m/n越来越接近于某个确定的常数（此论断证明详见伯努利大数定律）。该常数即为事件A出现的概率，常用P (A) 表示。试验的所有可能结果被称为样本空间（sample space），一个试验结果被称为一个样本点（sample point），比如上述例子抽取一次商品，他的样本空间就是{正品，次品}，样本点有两个；一场足球比赛的样本空间是{胜，负，平}，投一次骰子的样本空间是{1,2,3,4,5,6}。思考题：抽两次商品的样本空间是什么呢？答案是：{（正品，正品），（正品，次品），（次品，次品），（次品，正品）}

生活中很多中把频率和概率混为一谈，打个比方。当我们抛一门硬币50次的时候，出现20次正面朝上，30次反面朝下，我们有些同学会说，正面朝上的概率是2/5，这就是典型的将频率和概率没有区分出来。
在上面这个例子中，关于20次出现正面朝上，只能说正面朝上的频率是2/5，而不能说概率是多少多少。
因为概率是理想值，频率是实验值；例如抛理想均等硬币10000次正反面出现正面的频率是 $0.5\pm\epsilon$ ,其中 $\epsilon$ 表示误差。
总结来说：概率是频率随样本趋于无穷的极限。

样本点的个数怎么计算？

上面一个问题中，我们发现抽一次商品和抽两次商品的样本空间是不同的，样本点的个数不同，分别是2个和4个。这是因为抽一次商品叫做单次试验，抽两次商品是多步试验。对于多步试验，尤其是步数特别多的试验，我们也不用一一枚举，下面给出多步试验的样本点个数的计算方法。
如果一个试验可以分为连续的k个步骤，在第一步有 $n_1$ 种可能结果，第二步有 $n_2$ 种可能结果，以此类推，所有样本点个数为 $n_1\times n_2...\times n_k$ 种

我们再考虑一种情况，还是从这堆货物里抽两个商品，但是是一次拿出来两个（或者说分两次拿，每次拿一个，但是不考虑次序了。），那样本空间是什么样呢，又有几个样本点呢？首先这就不是多步试验了，这是单次试验，因为一次就拿出来两个。那就不能用上述的公式了，两个商品的情况就只有三种了，一个正品和一个次品，两个正品，或两个次品。样本空间S={（正品，正品），（正品，次品），（次品，次品）}，样本点为3。

如果我们把每个商品都看做不一样的，独立的。每个商品我们也不在意好坏了。我们就问一次取出两个，有多少种可能性，那这里我们就要知道总共有多少个商品了，这在上种情景中是不需要知道的。这个例子其实就是跟抽我们熟悉的彩票一样了。7个数选3个但不考虑顺序，总共有几种情况，这种求样本点的方法叫做组合（combinations），即从N个物体中同时任取n个的组合数为（同时任取也就意味着不考虑顺序了）

其中

并且规定
符号！标识阶乘，例如
上面的问题从7个数中选3个，不考虑顺序，N=7，n=3 样本点的数量为

最后再让我们考虑一下上述这个例子但是考虑顺序的情况，也就是说不同选取顺序被认为是不同的试验结果。我们把这种方法叫做排列（permutations）。有两种思路，第一种是把他当成分步试验，第一次抽取一个数字，第二次抽一个，第三次再抽一个。那么可以按照多步试验的乘法法则，答案就是很简单了。
第一次选取时我们有7个选项，因为是不放回试验，第二次只有6个选项，第三次还剩5个选项。答案就是 $7\times 6\times 5 = 210$ 种
第二种解题思路是我们先把他当成组合，那么抽取了三个数总共有35种组合。然后这三个数字之间有集中排列呢？是 $3!$ 种,所以35再乘以 $3!$ ，可以推导出组合的公式就是

有了试验结果，得到了样本空间，如果为样本空间中每一个样本点分配概率呢？

三种方式，古典法、相对频数法和主观法。无论用哪种方法，分类概率都有两个基本条件：
1.分配给每个试验结果的概率都必须在0和1之间，包括0和1。
2.所有试验结果之和必须等于1
主观法：适用于所有情况等可能发生的情况。如果有n个可能的试验结果，每个结果的可能性都是1/n
比如掷骰子，掷到每一个数的概率都是1/6
相对频数法：适用于进行了大量重复试验，并且数据可以被用来估计试验结果将发生的次数的比例。
比如我们从一堆样品中随意抽取并检验是否是次品的试验，我们进行了100次，其中80次抽出来的样本是合格的，20次抽出来的样品不合格。那么我们可以说这批样品的次品率是20%，良品率是80%。相对频数法当然也要符合分配概率的两个基本条件。
主观法：当试验结果发生概率并不相同并且数据非常少时，那我们只能采取主观方式来推断概率了。

你上面举得抽取样本的试验是有放回的试验吧？那如果无放回试验呢？

无放回试验的概率计算，就稍有些不一样，举个简单的例子，球池有三个球，两个红的一个蓝的，那么如果有放回试验，每次抽取到红球的概率是2/3，蓝球概率是1/3，如果问，已知第一回抽到的是红球，并且不会把第一次抽取到的红球放回球池，那么请回第二回抽取到蓝球的概率是多少，这个问题看起来也相当简单，答案是1/2。这种已知一种相关事件已经发生，求新的事件发生的概率叫做条件概率。记做 $P(A|B)$ 。符号 $|$ 表示我们是在事件B已经发生的情况下求事件A的发生概率，读作“给定事件B下事件A的概率”
如果是有放回事件。那每次抽取得到红球或蓝球的概率是2/3和1/3，跟前一次抽取到什么颜色的球，完全没有关系，这类事件叫做独立事件。即 $P(A|B)=P(A)$ ,则我们说事件A和B是独立事件。否则两个事件是相关的。

条件概率怎么求

条件概率等于联合概率和边际概率之比
$P(A|B)=\frac{P(A\cap B)}{P(B)}$

我们也可以通过上式的变形得到乘法公式，用以得到联合概率

如果两个事件是独立事件，则

因此独立事件的乘法法则，给了我们另一种方法判断两事件是否独立。即如果则两事件独立。不等于则相关。
PS：注意不要混淆了互斥事件和独立事件。两个概率不为零的事件不可能既是独立事件又是互斥事件。两个互斥事件中的一个已经确定发生，那么另一事件发生的概率为0，他们是相关的。

贝叶斯定理是干啥的？

在条件概率的讨论中我们指出，在获得新的信息之后，对概率进行修正是非常重要的概率分析手段。通常在刚开始分析时，总是对关心的事件给出一个先验概率（prior probility）的估计。然后当我们获取了新信息之后就可以根据这些计算修正概率，对先验概率进行更新，得到后验概率。贝叶斯定理提供了进行这种概率计算的一种方法。这一过程如下图

$P(A_1| B)=\frac{P(A_1 \cap B)}{P(B)}$
又根据乘法法则，我们可以根据已知条件计算出
$P(A_1 \cap B) = P(B|A_1) \times P(A_1)$
$P(B)$ 只有两种情况，即 $A_1\cap B$ 和 $A_2\cap B$ ，则：
$P(B)=P(A_1\cap B)+P(A_2\cap B)$
最终我们得到贝叶斯定理的公式（两条件）：
$P(A_1| B)=\frac{ P(B|A_1) \times P(A_1)}{P(A_1\cap B)+P(A_2\cap B)}$
同理可得 $P(A_2| B)$

试验结果怎么表示？

上几个问题我们讲述了试验以及试验结果，在这里要引入一个新的概念随机变量（random variable），它是对试验结果的数值描述。它将一个可能出现的试验结果赋予一个数值，这个数值取决于试验结果。
比如说我们掷骰子，掷了10次，其中1点出现1次，2点出现2次，3点出现2次，4点出现1次，5点出现0次，6点出现4次。这就是试验结果的描述。
而随机变量根据取值分为离散型随机变量和连续型。
可以取有限多个数值或无限多个可数数值的随机变量叫做离散型随机变量，就像上面掷骰子的例子，令随机变量x为可能出现的点数，那么它很显然它的结果是有限个数的，它的取值分别为1,2,3,4,5,6。
再举一个例子，考虑一个汽车收费站，感兴趣的随机变量x是一天到达收费站的汽车数量。x是个离散型随机变量，x的可能取值为0,1,2...有无限多个可能，但始终是可数的。
连续型随机变量为可以在某个区间或多个区间任意取值的随机变量。比如度量时间，温度，重量，距离时，其试验结果可以用连续型随机变量来描述。
例如一家保险公司的咨询电话，假定感兴趣的随机变量x是相邻两次电话的间隔事件，或每次电话的通话时间（单位分钟）。随机变量的值可以是区间 $x\geqslant 0$ 中的任何值。事实上，x的取值是无穷的，比如：1.26分钟，3.445分钟，6.33333分钟，等等。这是一个时间的例子，再举一个距离的例子。
ps：确定一种随机变量是离散型还是连续型，只需把随机变量的值看到一条线段上的点，任意选择随机变量的两个值，如果线段上两点之间的所有点都可能是随机变量的取值，则该随机变量是连续型的。

随机变量是用数值描述结果，有了试验结果我们就可以给每个随机变量分配概率了对吧？

对的，研究一个随机变量，不只是要看它能取哪些值，更重要的是它取各种值的概率如何！
接下来介绍一个新的概念概率分布（probability distribution），顾名思义就是概率的分布，这个概率分布还是讲概率的。我认为在理解这个概念时，关键不在于“概率”两个字，而在于“分布”这两个字。为了理解“分布”这个词，我们来看一张图。

在很多教材中，这样的列表都被叫做离散型随机变量的“概率分布”。其实严格来说，它应该叫“离散型随机变量的值分布和值的概率分布列表”，这个名字虽然比“概率分布”长了点，但是对于我们这些笨学生来说，肯定好理解了很多。因为这个列表，上面是值，下面是这个取值相应取到的概率，而且这个列表把所有可能出现的情况全部都列出来了！

举个例子吧，一颗6面的骰子，有1，2，3，4，5，6这6个取值，每个取值取到的概率都为1/6。那么你说这个列表是不是这个骰子取值的”概率分布“？

长得挺像的，上面是取值，下面是概率，这应该就是骰子取值的“概率分布”了吧！大错特错！少了一个最重要的条件！对于一颗骰子的取值来说，它列出的不是全部的取值，把6漏掉了!

这么一说你就应该明白概率分布是什么了吧。

对于随机变量的每个概率都要这么列出来多麻烦，有没有别的表达形式呢？

之前我们说过给样本点分配概率的三种方法，第一种就是主观法，比如掷骰子，掷之前其实我们就已经知道每个随机变量的取值和每个取值的概率了，那我们除了列出列表还有其它的方式描述吗？
有啊，这就是概率函数（probability function），记做f(x), 概率函数给出了随机变量每一取值的概率。
对于掷骰子的例子，
$f(x)=1/6 \quad \quad \quad x=1,2,3,4,5,6$
这也是最简单的一种离散型概率分布，叫做离散型均匀概率分布(discrete uniform probability distribution)
$f(x)=1/n$
n代表随机变量取值的个数。
之后我们还会讨论别的常见离散型概率分布，但是不管哪种离散型概率分布，都要满足下列两个条件。
$f(x)\geqslant 0$
$\sum f(x) = 1$

随机变量可以用描述统计的方式来描述汇总吗？随机变量有平均数之类的吗？

对于随机变量我们除了用概率函数来表示以外，还可以用其它统计量来描述，有两个最重要的统计量就是数学期望(expected value)和方差（variance）。
数学期望就是随机变量的平均数或均值，是对随机变量中心位置的一种度量。离散型随机变量x的数学期望表达式如下
$E(x)=\mu=\sum xf(x)$
通常采用记号 $E(x)$ 或 $\mu$ 来表示随机变量的数学期望，简称期望。可能取值和其对应概率值相乘，然后各项乘积相加。数学期望是随机变量取值的加权平均，式中的权重是概率。
ps:随机变量的数学期望不一定等于随机变量的某个值，比如掷骰子，期望为3.5.
虽然期望给出了随机变量的中心位置，我们还需要知道随机变量的变异性或者说分散度。这就是方差。方差等于随机变量与期望的距离差 $(x-\mu)$ 的平方的加权求和（加权在这里指的就是乘以他的概率）。
$Var(x)=\sigma^2=\sum (x-\mu)^2f(x)$
方差的算数平方根为标准差（standard deviation），记做 $\sigma$ 。因为方差的单位是随机变量单位的平方，其含义比较难以理解，而标准差的单位和随机变量的单位相同。

概率分布有哪些常见的形式吗？

上面我们介绍了离散型均匀概率分布，对于离散型随机变量还有一些常见的概率分布形式，比如下面我们要介绍的二项概率分布（binomial probability distribution）。二项概率分布和一个叫做二项试验的多步骤试验有关。二项试验（binomial experiment）具有四种性质：
（1）试验由一系列相同的n个试验组成
（2）试验相互独立
（3）每次试验有两种可能的结果。一种可以称为成功，那另一种可以称为失败。
（4）每次成功的概率都相同，用p来表示，失败概率可以用q来表示或1-p
我们假设一个例子，一个滑雪初学者，从山上滑下来，不摔倒滑到山底即算成功，他总共滑了20次，我们感兴趣的随机变量是他成功的次数。请问这个试验符合二项试验的标准吗？
首先严格意义上来说他不算。为什么？我们一条一条性质来说。这个人从山顶滑到山底滑20次，每次试验相同吗？严格意义上肯定不同，因为滑20次时间跨度比较久，很可能天气状况，雪况就会不一样，而且给出的信息也无法判断是否只有他一个人滑雪。如果还有别的人在滑雪，那每次情况就更不一样了。再看第二条，每次试验相互独立，如果考虑到一个人的体力是有限的，每次都会消耗部分体力，而体力好坏一定会影响他的成功率，所以这些试验也不是相互独立的。所以这个试验理想状况，比如物理条件每次都完全相同，不考虑这个人的体能状况等等理想条件下，这个可以看做二项试验。
如果我们当成理想条件，把这个试验看做二项实验，我们感兴趣的随机变量是他成功的次数。这个随机变量的取值肯定是有限的，所以他是离散型随机变量。与这一变量相对应的概率分布就是二项概率分布。

我们如何求出二项实验成功次数对应的概率呢？

我们架设这个滑雪初学者，不摔倒滑到山底成功的概率是0.3，失败的概率就是0.7。总数我们简化一下，总共滑了三次，我们要求的是他成功两次的概率。那这两次可以是三次中的任意两次。3选2，这是不是就是组合问题。所有的可能情况是 $C^{3}_2=(^{3}_2)=\frac{3!}{2!(3-2)!}=3种$ 我们用S表示成功，F表示失败。这三种结果分别是{S,S,F},{S,F,S},{F,S,S}。我们已经知道了与x次成功对应的试验结果的个数，3种，我们还需要知道每个试验结果的概率，因为每次试验是独立的，所以概率简单相乘即可。比如第一次，第二次成功，第三次失败{S,S,F}的概率就是 $p\times p\times (1-p)=0.3\times 0.3 \times 0.7=0.063$ 。我们还可以发现另外两种成功两次的情况和第一种有着一样的概率，第二种是 $p(1-p)p$ ，第三种是 $(1-p)pp$ 。这一观察结果通常总是成立的。在任意二项试验中，n次试验成功x次的所有试验序列有相同的概率。
$在n次试验中x次成功的特定试验结果序列的概率=p^x(1-p)^{n-x}$
得出了一次特定试验成功的概率，又因为概率相同，再乘以次数可以得出二项概率函数（binomial probability function）
$f(x)=(^{n}_x)p^x(1-p)^{n-x}$
通过上面的概率函数我们就可以求出所有离散随机向量的值。进而就得出了二项试验的概率分布。
在随机变量服从二项分布的特定情况下，数学期望和方差可以得到简化，推导过程掠过不表。

$E(x)=\mu=np$
$Var(x)=\sigma^2=np(1-p)$

柏松概率分布

柏松概率分布（possion probability distribution）主要用来某事情在特定时间段或空间中发生的次数。例如我们感兴趣的可能是一小时内到达收费站的车辆数。一公里长的路面，需要维修的点等等。如果满足下面两个性质，则出现次数是一个用柏松概率分布描述的随机变量。
1.在任意两个长度相等的区间，事件发生的概率相同。
2.事件在任意区间是否发生与事件在其它区间是否发生是相互独立的。
柏松概率函数：
$f(x)=\frac{\mu^xe^{-\mu}}{x!}$
式中 $f(x)$ 表示任意事件在一个区间发生x次的概率， $\mu$ 表示事件在一个区间发生次数的数学期望， $e$ 等于2.71828
下面举一个时间区间的例子，假设一个停车场在工作日，平均15分钟会来10辆车。这个假设满足柏松概率分布，因此
$f(x)= \frac{10^xe^{-10}}{x!}$
如果管理员想知道有15分钟内恰好有5辆车到达的概率，只需令x=5， $f(5)=0.0378$
在上面的例子中，柏松分布的数学期望已知，是10，柏松分布有一个重要的性质就是期望和方差相等。
我们的例子中时间长度是15分钟，对其它事件长度也试用，比如我们想知道3分钟恰好有一辆车到达的概率。
我们首先求出三分钟内到达车辆的期望，是 $3/15\times 10=2$ ，因此3分钟内恰好有一辆车到达的概率是 $\frac{2^1e^{-2}}{x!}=\frac{2^1e^{-2}}{1}=0.2707$ 。
下面再举一个长度或距离上的例子。假如我们关心的是在一段新修好的路面上发生重大损坏的概率。我们假设任意两个长度相等的区间发生一处损坏的概率相同，任意一个路面发生损坏和其它段路面是否发生损坏没有关联，所以柏松分布是适用的。
假设我们知道在一个月内平均每公里有两处收到损坏。求三公里的一段路段有至少一处发生损坏的概率。我们知道的期望是一公里 $\mu=2$ ，所以三公里的期望 $\mu=6$ ，根据公式，没有发生损坏的概率为： $f(x)=6^0e^{-6}/0=0.0025$ ，所以至少发生一处损坏的概率为1-0.0025=0.9975

离散型随机变量和连续型随机变量最主要的区别是什么？

之前我们已经阐述了离散型随机变量和连续型随机变量在取值上的区别。两者还有一个最根本的区别在于概率的计算上是不同的。
对于一个离散型随机变量，概率函数 $f(x)$ 给出了随机变量x取某一个特定值时的概率。而对于连续型随机变量，与概率函数相对应的是概率密度函数(probability density function)。不同的是，概率密度函数并没有直接给出概率，但是给定区间下曲线 $f(x)$ 下的面积，给出连续概率函数在该区间取值的概率。由于连续型随机变量在某一特定点下的面积为零，所以连续型随机变量在某一特定值的概率为0，我们要求的是随机概率在某一区间内取值的概率。
连续型随机变量我们将介绍主要三种连续型概率分布，均匀概率分布，正态概率分布和指数概率分布

均匀概率分布

均匀概率分布就是随机变量服从均匀分布，它的概率密度函数为
$f(x)=\left\{ \begin{aligned} \frac{1}{b-a} \quad \quad a\leqslant x\leqslant b \\ 0 \quad 其它 \end{aligned} \right.$
$E(x)=\frac{a+b}{2}$
$Var(x)=\frac{(b-a)^2}{12}$

正态分布（normal probability distribution）

正态分布曲线下总面积为1
一些常见的正态分布取值为：
68.3%的值在距均值加减一个标准差范围内
95.4%的值在距均值加减两个标准差范围内
99.7%的值在距均值加减三个标准差范围内
如果一个随机变量服从均值为0，标准差为1的正态分布，则称该随机变量服从标准正态概率分布（standard normal probability distribution）。

如何将正态分布转化成标准正态分布

需要用到z值，然后查表，z值是正态随机变量x与其均值 $\mu$ 之差按其标准差度量的倍数。
$z=\frac{x-\mu}{\sigma}$

二项概率近似正态分布

当 $np\geqslant 5$ 和 $n(1-p)\geqslant 5$ 时，我们可以用正态分布近似二项概率分布。
$\mu=np$ , $\sigma = \sqrt {np(1-p)}$
因为离散型概率分布和连续型概率分布的区别，我们需要用到一个连续型校正因子（continuity correlation factor ）比如计算12这个离散型型随机变量的概率值，可以用0.5作为连续型校正因子，我们计算12.5和11.5之间对应的正态曲线下的面积

指数概率分布

指数概率分布和柏松分布一样，也是期望和标准差相等。（柏松分布是期望和方差相等。）

推断统计

推断统计的基础是通过抽样从样本中得到数据，然后对总体进行推断，回答关于总体的一个问题。
从中抽取样本的总体叫做抽样总体（sampled population）。抽样框（frame）是用于抽样的个体清单。
抽样分布使得我们可以说明样本估计值和相应总体参数的接近程度。总体的数字特征叫做参数（parameter）

如何选择一个样本

选择样本的过程就叫做抽样，抽样分为从有限总体抽样和无限总体抽样。
先说从有限总体抽样，最常见的方法是简单随机抽样（simple random sample）意思是从有限个总体N中抽取容量为n的样本，每一个样本点以相同概率被抽到。
有时候总体可能是无限大的或者总体中的个体是在不断生产的过程中产生的，无法得到所有总体中的个体清单，也就没有抽样框。对于无限总体的情况，统计学建议抽取一个所谓的随机样本（random sample）。
随机样本满足下列两个条件：1.抽取的每个个体来自同一总体。2.每个个体的抽取是独立的。

样本特征和总体参数的关系？

我们通过计算得出的相应的样本特征又叫做样本统计量（sample statistic）。比如我们通过计算可以得出样本的平均值 $\overline{x}$ 为总体均值 $\mu$ 的点估计量(point estimator)。 $\overline{x}$ 的值比如说30成为参数的点估计值（point estimate）点估计值和总体参数的值是有差异的，这个差异是由于我们用的是来自总体的样本来计算点估计值。
之后我们将介绍如何构建区间估计以便提供关于点估计值和总体参数值得差异大小的信息。

样本选取是随机的，每次选取样本都不一样，那么得到的点估计值不也就不一样吗？

对，之前我们将对一个试验的结果的数值描述定义为随机变量。如果我们将抽取样本的过程当做一个试验，则样本均值 $\overline{x}$ 就是对试验结果的一个数值描述。从而样本均值 $\overline{x}$ 就是一个随机变量，像其他随机变量一眼， $\overline{x}$ 也有自己的期望、标准差和概率分布。
由于 $\overline{x}$ 的值可能是不同简单随机样本的结果， $\overline{x}$ 的概率分布叫做 $\overline{x}$ 的抽样分布（sampling distribution）
抽样分布的知识和性质能让我们对样本均值和总体均值的接近程度做一个概率度量。
样本均值 $\overline{x}$ 是一个随机变量，它的概率分布被称为 $\overline{x}$ 的抽样分布。样本比例 $\overline{p}$ 也是一个随机变量，它的概率分布为 $\overline{p}$ 的概率分布。

$\overline{x}$ 的抽样分布

随机变量 $\overline{x}$ 可能取很多不同的值，它的均值就是就是 $\overline{x}$ 的数学期望，对于简单随即抽样， $\overline{x}$ 的期望等于总体均值。
它的标准差

当有限总体，但是时就可以用无限总体的公式来计算
我们称的标准差为均值的标准误差（standard error），一般的标准误差为点估计量的标准差。
最后我们来讨论抽样分布的形态，分两种情况，第一种总体是正态分布，那么在任意样本容量下的抽样分布都是正态分布。第二种情况是总体非正态分布，或者总体分布情况未知，我们可以用中心极限定理（central limit theorem）来限定样本容量大于30（or 50更准确）使样本抽样分布满足正态分布。
样本容量增大，均值的标准误差减小。样本均值落在某一特定区间的概率也就随之增大。

$\overline{p}$ 的抽样分布

样本比例 $\overline{p}$ 是总体比例p的点估计量，样本比例的计算公式为
$\overline{p}=\frac{x}{n}$ ,x为样本中具有被关注特征的个体的个数，n代表样本容量。样本比例的数学期望等于总体比例。它的标准差和样本均值的标准差一样，分为有限样本和无限样本两种。

最后确定的抽样分布的形态，因为,而x是一个服从二项分布的随机变量，n是一个常数，所以的抽样分布也是一个离散型的概率分布。，并且每个取值的概率与x的概率相同。
之前我们还证明了，当样本容量足够大，并且满足下面两个条件时，
和时，一个二项分布可以用正态分布来近似。假定上述两个条件都满足，则样本比例也可以用一个正态分布来近似。

能通过点估计量得到总体参数的值吗？

点估计量知识总体参数的估计值，样本统计量。我们不可能期望通过样本能给出总体参数的精确值，但是我们可以通过区间估计(interval estimate)来得出一个总体参数的范围的概率。
区间估计的一般形式是点估计量加减边际误差（margin of error）
区间估计得目的在于提供基于样本得出的点估计值与总体参数值得接近程度的信息。
在计算这些区间估计时抽样分布起到了很大的作用。

如何计算区间估计

我们一般计算的是总体均值和总体比例的区间估计，我们先来看总体均值。
总体均值的区间估计需要用到总体的标准差或样本标准差来计算边际误差。
这又分为两种情况，一种是总体标准差已知，一种是总体标准差未知。
先来看看总体标准差已知的情况。
我们希望求得是 $\mu$ 有多大可能落在一个区间内，我们已知的是样本均值 $\overline{x}$ ,总体标准差 $\sigma$ ,样本个数n，可以求出样本标准差是
$\sigma_{\overline{x}}=\frac{\sigma}{\sqrt{n}}$
根据之前学习的内容，抽样分布说明 $\overline{x}$ 的值如果分布在 $\mu$ 附近，所以 $\overline{x}$ 的抽样分布提供了关于 $\overline{x}$ 和 $\mu$ 之间存在的差别的信息。
如果总体满足标准差为s的正态分布，那么 $\overline{x}$ 也满足标准误差为 $\sigma_{\overline{x}}$ 的正态分布。
利用标准正态分布表，我们知道一定有95%的 $\overline{x}$ 的值落在总体均值正负1.96个标准误差之内。
那也就意味着95%的可能性 $\overline{x}$ 加减1.96个标准误差之内包含总体均值。换句话说 $\overline{x}$ 加减1.96个标准误差构建的区间中，有95%的区间包含总体均值 $\mu$ 。
在这里95%被称为置信水平（confidence level）,0.95被称为置信系数（confidence coefficient）。这个区间被称为置信区间（confidence interval）。

通过上式我们知道如果求总体均值的区间估计，需要知道总体方差 $\sigma$ ,如果 $\sigma$ 未知的情况，我们需要用样本误差s来估计 $\sigma$ 时边际误差以及总体均值的区间估计都是以t分布的概率分布为依据进行的。
要注意t分布的数学推导也是以假设抽样总体满足正态分布为依据，如果总体的分布不是正态分布，样本容量超过30就可以近似估计，如果总体严重偏斜或有异常点，那么我们建议样本容量大于50，如果总体的分布不是正态分布，但是对称，那么15 样本容量就可以得到一个不错的置信区间的近似。
t分布是由一些近似的分布组成的分布族，一个特定的t分布依赖于被称为自由度（degrees of freedom）的参数。当t分布的自由度越来越大时，t分布与正态分布的差别越来越小。
所以在总体标准差未知的情况下，为了计算 $\mu$ 的区间估计，用样本标准差估计 $\mu$ ,用t分布 $t_{\alpha/2}$ 的值代替 $z_{\alpha/2}$ ,

样本标准差的公式为

如果在抽样之前我们确定好了置信区间以及希望的边际误差E，如何确定样本数量。

如何求总体比例的区间估计

类似我们给出总体比例的区间估计的一般形式为
$\overline{p}$ 加减边际误差

前提条件还是和时，的分布近似于正态分布。

什么是假设检验

假设检验(Hypothesis Testing)：是推断统计的最后一步，是依据一定的假设条件由样本推断总体的一种方法。

假设检验的基本思想是小概率反证法思想，小概率思想认为小概率事件在一次试验中基本上不可能发生，在这个方法下，我们首先对总体作出一个假设，这个假设大概率会成立，如果在一次试验中，试验结果和原假设相背离，也就是小概率事件竟然发生了，那我们就有理由怀疑原假设的真实性，从而拒绝这一假设。

在假设检验中我们首先要对总体参数进行一个尝试性的假设，该常识性的假设被称为原假设（null hypothsis），记做 $H_0$ ,然后定义一个与原假设完全相反的假设，记做 $H_a$ 成为备择假设(alternative hypothesis)。假设检验的过程就是根据样本数据对这两个假设进行检验。
等号总是出现在原假设中

假设检验总是正确的嘛？

当然不是，因为假设检验也是基于样本信息得出的结论，所以我们必须考虑发生误差的可能性。

第一类错误： $H_0$ 为真时却错误的拒绝了 $H_0$ ,
第二类错误： $H_0$ 为假时却错误的接受了 $H_0$ ,

显著性水平（level of significance）:当作为一个等式的原假设为真时，拒绝原假设，犯下第一类错误的概率成为检验的显著性水平。
我们可以通过人为设定显著性水平来控制犯下第一类错误概率，如果没有对第二类错误的概率加以控制我们就不能得出接受原假设的结论，我们只能说不能拒绝原假设

如何对总体均值进行假设检验？

假设检验主要是针对总体均值和总体比率，总体均值还是分为标准差已知和未知两种情况。
我们还是首先假设总体服从正态分布，或者样本足够大，样本可以用正态分布来近似。

为总体均值的假定值。
先拿下侧检验举例
我们计算样本均值来作为总体均值的估计值，如果样本均值小于总体均值的假定值。则样本结果对原假设提出了质疑。我们想知道的是样本均值比假定值小多少的时候，我们才能断言差异明显并甘愿冒第一类错误的风险去断言原假设是错误的，可以拒绝原假设从而接受备择假设。这个问题的关键在于决策者选择的显著性水平。
确定了原假设备择假设以及显著性水平，下一步求出检验统计量（test statistic）z来确定样本均值是否偏离总体均值的假设值足够远。
z是标准正态随机变量，表示偏离的位置。比如z=-1表示是在
的左侧一个标准差的地方。通过标准正态概率分布表，可以得出概率。

现在的问题是z必须多小我们才能选择拒绝原假设。有两种方法，p值法和临界值法
p值法利用检验统计量z的值来计算一个被称为p值的概率。然后和显著性水平进行比较。
p值是一个概率值，他是样本所提供的的证据对原假设支持程度的度量。
p值越大，说明原假设正确的可能性越大。p值越小说明反对原假设的证据越多。在单侧检验中，p值为z值左或右边的面积。
p值也被称为观测的显著性水平，p值小于显著性水平,则拒绝
临界值法是先求出显著性水平对应的z值。然后跟之前得到的检验统计量的值进行比较。

如何对总体比例进行推断统计

如何计算发生第二类错误的概率

遵循以下步骤
1.建立原假设和备择假设

2.在显著性水平 $\alpha$ 下，根据临界值法确定临界值并建立检验的拒绝法则。
$z=\frac{\overline{x}-\mu_0}{\sigma/\sqrt{n}}$
$z_{0.05}=1.645$ 下侧检验的拒绝法则为如果 $z\leqslant-1.645$ ，则拒绝 $H_0$
3.利用该拒绝法则，解出与检验统计值的临界值相对应的样本均值的取值。
因为标准差和样本容量已知，通过上式可以解出 $\overline{x}$
4.利用上式结果，得到接受 $H_0$ 时所对应的样本均值的值，这些值构成了检验的接受域。
5.对于满足备择假设的值，利用 $\overline{x}$ 的抽样分布，和步骤4中的接受域，计算样本均值落在接受域的概率。这一概率值即为在选定的 $\mu$ 值处，发生第二类概率的错误。

$z=\frac{\overline{x}-\mu_真}{\sigma/\sqrt{n}}$
z值再查表得概率。

如何确定总体均值假设的样本容量

我们通过设置显著性水平来控制第一类错误，通过控制样本容量我们可以有效地控制第二类错误。

能对两个总体均值之差进行推断统计

第一种情况，总体均值的标准差已知。
我们先从区间估计开始
两个总体均值的之差的点估计量为 $\overline{x}_1-\overline{x}_2$
前提条件还是两者总体都满足正态分布，或样本容量足够大，让我们可以使用中心极限定理，那么 $\overline{x}_1-\overline{x}_2$ 将服从均值 $\mu_1-\mu_2$ 的正态分布。
$\overline{x}_1-\overline{x}_2$ 的标准误差为：
$\sigma_{\overline{x}_1-\overline{x}_2}=\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}$
区间估计的公式为
$\overline{x}_1-\overline{x}_2\pm 边际误差$
$边际误差=z_{\alpha/2}\sigma_{\overline{x}_1-\overline{x}_2}$

$\mu_1-\mu_2$ 的假设检验

第二种情况，总体均值的标准差未知。我们用样本的标准差 $s_1,s_2$ 来估计总体的标准差，区间估计和假设检验的程序将建立在t分布的基础上

自由度

为了更保守，自由度向下取整

假设检验

如果抽样采取匹配样本

两总体比例的推断

总体方差的推断统计

卡方检验是以χ2 \chi^2χ
2
分布为基础的一种常用假设检验方法，它的基本假设H0是：观察频数与期望频数没有差别。
python库
from scipy.stats import chi2_contingency

拟合优度与独立性检验，卡方检验还能做什么？

拟合优度检验就是将样本结果与原假设为真时所期望的结果进行比较，算出样本结果与期望结果的接近程度来做出结论
多项总体（multinominal population）：总体中的每一个个体被分配到若干个类中的某一个的情况。

卡方分布还可以做两个变量的独立性假设

卡方分布还可以做总体是否服从泊松分布和正态分布

方差分析

方差分析(Analysis of Variance，简称ANOVA)，用于两个及两个以上样本均数差别的显著性检验
因子（factor）就是独立变量，因子分为定量因子和定性因子
方差分析需要满足三个条件
1.对于每个总体满足正态分布，（如果样本容量相等，方差分析对于违背总体正态分布的假定不敏感）
2.响应变量的方差，对所有总体相同。
3.观测值是独立的
被解释变量和解释变量可以潜在地随时间和个体的变化而变化。给定个体在时间上的差异(随机误差)被称为组内差异；在不同treatment之间的差异被称为组间差异。
如果原假设成立，那么组间估计应该近似于组内估计，当原假设不成立时，组间估计会高估总体方差，远大于组内估计
组间估计的方差是基于原假设成立，就是不存在差异。组内估计的方差是基于原假设不成立，所以几个组的样本方差取平均数。

决定系数

决定系数（coefficient of determination），有的教材上翻译为判定系数，也称为拟合优度。表示可根据自变量的变异来解释因变量的变异部分
决定系数并不等于相关系数（coefficient of correlation）的平方。它与相关系数的区别在于除掉|R|=0和1情况，
表达式：R2=SSR/SST=1-SSE/SST
其中：SST=SSR+SSE，SST (total sum of squares)为总平方和，SSR (regression sum of squares)为回归平方和，SSE (error sum of squares) 为残差平方和。
SSE：对于第i个观察点, 真实数据的Yi与估算出来的Yi-head的之间的差称为第i个residual, SSE 就是所有观察点的residual的和
$SSE=\sum{(y_i-\hat{y_i})^2}$
SSR:
$SSR=\sum{(\hat{y_i}-\overline y)^2}$
SST:
$SST=\sum{(y_i-\overline{y})^2}$

方差分析

差异来源离差平方和SS 自由度均方MS F值
组间 SSb m-1 MSb MSb/MSw
组内 SSw n-m MSw —
全部 SST n-1 — —
方差分析的基本假设是不同样本组的平均数间的差异基本来源有两个：
(1) 实验变量，即样本的主要区别的造成的差异（例如，男和女），称为组间差异。用所有变量在各自己组的均值与所有变量糅合在一块儿总均值之偏差平方和的总和表示，记作SSb，其自由度为dfb。
(2) 随机误差，如测量误差造成的差异或每个个体间的差异，称为组内差异，用变量在各组的均值与该组内变量值之偏差平方和的总和表示，记作SSw，组内自由度为dfw。
总偏差平方和 SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m，组间dfb=m-1，其中n为样本总数，m为组数)，得到其均方MSw和MSb，一种情况是实验条件没有作用，即各组样本均来自分布相同的同一总体，MSb/MSw≈1。另一种情况是处理确实有作用，组间均方是由于误差与不同处理共同导致的结果，即各样本来自不同总体。那么，MSb>>MSw(远远大于1)。
MSb/MSw比值构成F分布。用F值与其临界值比较，作为在给定显著性推断各样本是否来自相同的总体的依据。

方差分析的基本思想是：通过分析研究不同来源的变异对总变异的贡献大小，从而确定可控变量对研究结果显著性的大小。

组间均方MSTR（mean square due to treatments）等于组间平方和SSTR（sum of square due to treatments）除以自由度k-1（k种不同处理）

若h0为真，则mstr给出了方差的一个无偏估计量。
均方误差MSE（mean square due to error）等于误差平方和SSE（sum of square due to error）除以自由度，总样本数减去处理数

SSE等于每个数减去对应的组内平均数的平方相加。

总平方和SST等于每个数减去对应的所有数平均数的平方相加。除以自由度（总数-1）等于该数据集总的样本方差。
SST=SSTR+SSE

多重比较方法

析因试验

回归分析的显著性检验

回归分析的区间估计

残差分析（residual analysis）

机器学习或量化交易必备的统计学基础
Chapter 1. 统计基本概念 1. 请用一句话解释什么是统计学? 统计学是帮助我们理解世界的工具（有点装了）...
斜杠中年--机器学习
斜杠中年--PART 1 机器学习必备能力：统计学参考书籍：《应用预测建模》《统计学习入门》《编程集体智慧》 ...
2020-03-11
使用Python实现量化交易机器人定时启动或停止小工具作为全网功能强大、灵活易用的量化交易平台，发明者量化交易平...
如何避免量化交易策略模型过度拟合
引言：量化交易建模最重要的一个方面是避免过度拟合。过度拟合是统计学和机器学习领域的概念，指的是模型在训练数据中拟合...
简单几步，教你在服务器上实现量化交易（程序化交易）
很多同学在学习量化时会有疑虑，量化交易是个很复杂的东西，我不懂编程或者基础太差还能进行量化交易吗？在跑量化交易之前...
AI开发日志代码资源等
AI开发日志代码资源等计划预备知识Python 基础数学基础机器学习统计学习方法西瓜书机器学习实战深度学...
利用Python编写量化交易项目理性投资股票（一）
学习目标量化交易以计算机强大运算能力为基础，运用数据建模、统计学分析、程序设计等工具从历史数据中得到大概率下获利...
统计套利揭秘
什么是量化交易在介绍统计套利之前，我们可以再温习一下量化交易的概念。量化交易是通过数学方法（特别是统计学方法）来...
花书机器学习基础 (阅读笔记)
深度学习(花书) 第一部分应用数学及机器学习基础第五章机器学习基础机器学习本质属于应用统计学，利用计算机...
回测曲线要上天？其实你只是在过拟合！
在量化交易建模过程中很多策略研究者都会经历过度拟合的情况。过拟合其实是机器学习领域和统计学领域的一个概念。一般被用...

机器学习或量化交易必备的统计学基础

Chapter 1. 统计基本概念

1. 请用一句话解释什么是统计学?

2. 数据是什么?

3. 数据长什么样?

4.数据都分什么类型？

Chapter 2. 描述统计学

5.描述统计都有什么方法呢？

Chapter 3.概率

什么是概率？为什么学习概率？概率和频率有什么不同？

样本点的个数怎么计算？

有了试验结果，得到了样本空间，如果为样本空间中每一个样本点分配概率呢？

你上面举得抽取样本的试验是有放回的试验吧？那如果无放回试验呢？

条件概率怎么求

贝叶斯定理是干啥的？

试验结果怎么表示？

随机变量是用数值描述结果，有了试验结果我们就可以给每个随机变量分配概率了对吧？

对于随机变量的每个概率都要这么列出来多麻烦，有没有别的表达形式呢？

随机变量可以用描述统计的方式来描述汇总吗？随机变量有平均数之类的吗？

概率分布有哪些常见的形式吗？

我们如何求出二项实验成功次数对应的概率呢？

柏松概率分布

离散型随机变量和连续型随机变量最主要的区别是什么？

均匀概率分布

正态分布（normal probability distribution）

如何将正态分布转化成标准正态分布

二项概率近似正态分布

指数概率分布

推断统计

如何选择一个样本

样本特征和总体参数的关系？

样本选取是随机的，每次选取样本都不一样，那么得到的点估计值不也就不一样吗？

的抽样分布

的抽样分布

能通过点估计量得到总体参数的值吗？

如何计算区间估计

如果在抽样之前我们确定好了置信区间以及希望的边际误差E，如何确定样本数量。

如何求总体比例的区间估计

什么是假设检验

假设检验总是正确的嘛？

如何对总体均值进行假设检验？

如何对总体比例进行推断统计

如何计算发生第二类错误的概率

如何确定总体均值假设的样本容量

能对两个总体均值之差进行推断统计

总体方差的推断统计

拟合优度与独立性检验，卡方检验还能做什么？

方差分析

决定系数

方差分析

多重比较方法

析因试验

回归分析的显著性检验

残差分析（residual analysis）

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

$\overline{x}$ 的抽样分布

$\overline{p}$ 的抽样分布