概率论导论笔记

作者: Omar_4321 | 来源:发表于2020-04-23 22:54 被阅读0次

1. 样本空间与概率
2. 离散随机变量
3. 一般随机变量
4. 随机变量的深入内容
5. 极限理论
6. 马尔科夫链
- 6.1. 离散时间的马尔科夫链
  - 6.1.1. 路径的概率
  - 6.1.2. $n$ 步转移概率
7. 贝叶斯统计推断
8. 经典统计推断
- 8.1. 经典参数估计
  - 8.1.1. 估计量的性质
  - 8.1.2. 最大似然估计
- 8.2. 线性回归
  - 8.2.1. 贝叶斯线性回归
  - 8.2.2. 非线性回归

1. 样本空间与概率

1.1. 概率率性质

考虑一个概率律,令 A , B 和 C 为事件.
$\begin{aligned} &(a) \quad 若\: A\subset B \:则 \: P(A) \le P(B).\\ &(b) \quad P(A \cup B) = P(A) + P(B) - P(A \cap B).\\ &(c) \quad P(A \cup B) \le P(A) + P(B).\\ &(d) \quad P(A \cup B \cup C) = P(A) 十 P(A^c \cap B) + P(A^c \cap B^c \cap C).\\ \end{aligned}$

1.2. 条件概率

对于等概率模型的情况，下面关于条件概率的定义是合适的：
$P(A|B)=\frac{事件A\bigcap B 的实验结果数}{事件B的实验结果数}$
条件概率的定义为:设事件 $B$ 满足 $P(B)> 0$ ,则给定 $B$ 之下,事件 $A$ 的条件概率由下式给出
$P(A|B) = \frac{P(A\bigcap B)}{P(B)}$

1.2.1. 乘法规则

假定所有涉及的条件概率都是正的，我们有
$P(\bigcap_{i=1}^{n}A_i )= P(A_1)P(A_2|A_1)P(A_3|A_1\cap A_2 ) ... P(A_n| \bigcap _{i=1}^{n-1}A_i)$

1.3. 全概率公式

设 $A_1,A_2,...A_n$ 是一组互不相容的事件，它形成样本空间的一个分割（每一个实验结果必定使得其中一个事件发生）。又假定对每一个 $i,P(A_i)>0$ 。则对于任何事件 $B$ ，下列公式成立:
$\begin{aligned} P(B) &= P(A_1\cap B_1)+...+P(A_n\cap B_1) \\ &=P(A_1)P(B|A_1)+...+P(A_n)P(B|A_n) \end{aligned}$
直观上,将样本壁间分割成若干事件 $A_i$ 的并 $(A_1 , ··E , A_n 形成样本空间的一个分割! )$ ,然后任意事件 $B$ 的概率等于事件 $B$ 在 $A_i$ 发生的情况下的条件概率的加权平均,而权数刚好等于这些事件 $A_i$ 的无条件概率。

1.4. 推理和贝叶斯准则

全概率定理是与著名的贝叶斯准则联系在一起的.贝叶斯准则将形如 $P(A|B)$ 的条件概率与形如 $P(B|A)$ 的条件概率联系了起来

1.4.1. 贝叶斯准则：

设 $A_1,A_2,...,A_n$ 是一组互不相容的事件,它形成样本空间的一个分割(每一个试验结果必定使得其中一个事件发生 ! )。又假定对每一个 $i$ , $P(A_i)$ 于任何事件 $B$ , 只要它满足 $P(B)>0$ ，下列公式成立：

$\begin{aligned} P(A_i|B) &=\frac{P(A_i)P(B|A_i)}{P(B)} \\ &=\frac{P(A_i)P(B|A_i)}{P(A_1)P(B|A_1)+...+P(A_n)P(B|A_n)} \end{aligned}$
贝叶斯准则还可以用来进行因果推理.有许多"原因"可以造成某一"结果"。现在设我们观察到某一结果,希望推断造成这个结果出现的"原因“。现在设事件 $A_1,.... , A_n$ 是原因,而 $B$ 代表由原因引起的结果 . $P(B|A_i)$ 表示在因果模型中由"原因 "A‘造成结果 $B$ 出现的概率. 当观察到结果 $B$ 的时候,我们希望反推结果 $B$ 是由原因 $Ai$ 造成的概率 $P( A_i|IB)$ 。
$P(A_i|B)$ 为由于新近得到的信息 $B$ 之后 $A_i$ 出现的概率,称之为后验概率，而原来的 $P(A_i)$ 就称为先验概率.

1.5. 独立性

当事件 $B$ 的发生并没有给事件 $A$ 带来新的信息,它没有改变事件 $A$ 发生的概率,即:
$P(A|B) = P(A)$
在上述等式成立的情况下,我们称事件 $A$ 是独立于事件 $B$ 的.注意,由条件概率的定义可知 $P(A|B) = P(A\cap B)/P(B)$ ,上式等价于:
$P(A\cap B)=P(A)P(B).$

1.5.1. 条件独立

前面已经提到在给定某事件的条件下,诸事件的条件概率形成符合要求的概率律。因此我们可以讨论在条件概率律下的独立性。特别地,在给定 $C$ 之下,若事件 $A$ 和事件 $B$ 满足
$P(A\cap B|C)=P(A|C)P(B|C)$
则称 $A$ 和 $B$ 在给定 $C$ 之下条件独立。为了导出条件独立的另一个特征,利用条件概率的定义和乘法规则,得到:
$\begin{aligned} P(A\cap B|C) &= \frac{P(A\cap B \cap C)}{P(C)}\\ &=\frac{P(C)P(B|C)P(A|B\cap C)}{P(C)}\\ &=P(B|C)P(A|B\cap C) \end{aligned}$
比较前面两组等式的最右端，只要 $P(B|C) \ne 0$ ,那么 $P(B|C)$ 这个因子就可以消掉，得到：
$P(A|B\cap C)=P(A|C)$
这是条件独立的另一个等价定义（要求 $P(B|C) \ne 0$ ）。这个等式说明在给定 $C$ 发生的条件之下,进一步假定 $B$ 也发生,并不影响事件 $A$ 的条件概率。

1.5.2. 二项概率

现在设试验有一系列独立并且相同的小试验组成，称这种试验为独立试验序列。当每个阶段的小试验只有两种可能结果的时候，就称为独立的伯努利试验序列。此处的两种可能结果可以是任何结果,例如"下雨"和"不下雨"。但是,在学术讨论中，我们通常用抛掷硬币的两个结果"（H）正面"和"反面" (T) 作为代表。

在长度为 $n$ 的独立伯努利试验序列中,任何试验结果的概率为 $p^k(1-p)^{n-k}$ ,其中 $k$ 为试验结果中正面出现的次数 , $k$ 的取值可以从 $0$ 到 $n$ 。
现在我们要计算概率 $p(k)= P(n 次抛掷中有 k次出现正面)$ ,这个概率在概率论中处于十分重要的地位.由于任何包含 $k$ 次正面向上的结果的概率都是 $p^k(1-p)^{n-k}$ , 我们得到
$p(k) ={n\choose k} p^k(1-p)^{n-k}$

数 ${n\choose k}$ 就是有名的二项系数,称为 $n$ 选 $k$ 的组合数，概率 $p(k)$ 就是有名的二项概率。利用计数法可以得到
${n \choose k}=\frac{n!}{k!(n-k)!},k=0,1,...n$
此处记号 $i!$ 表示正整数 $i$ 的阶乘。
由于二项概率 $p(k)$ 的总和必须为1，这样二项公式
$\sum_{k=0}^n {n \choose k}p^k(1-p)^{n-k}=1$

1.5.3. $n$ 选 $k$ 排列

假定 $n$ 个不同的对象组成一个集合。令 $k$ 是一个正整数， $k\le n$ ，现在我们希望找出从 $n$ 个对象中顺序地选出 $k$ 个对象的方法数，或 $k$ 个不同对象的序列数。
$\begin{aligned} n(n-1)...(n-k+1)&=\frac{n(n-1)...(n-k+1)(n-k)...2\cdot 1}{(n-k)...2\cdot 1}\\ &=\frac{n!}{(n-k)!} \end{aligned}$
这时，这些序列称为 $n$ 取 $k$ 排列，特别，当 $k=n$ 的时候，简称为排列。

1.5.4. 组合

在 $n$ 对象取 $k$ 个对象的组合中，每一个组合对应了 $k!$ 个不同的排列。这样在 $n$ 对象取 $k$ 个对象的排列数 $n!/(n - k)!$ 等于组合数乘以 $k!$ 因此，从 $n$ 个元素的集合中选 $k$ 个元素的组合数为：
$\frac{n!}{k!(n-k)!}$
二项系数定义为 $n$ 次抛掷硬币时，正面向上次数为 $k$ 的可能的试验结果数。我们注意到，确定一个 $k$ 次向上的试验结果等价于在所有 n 次抛掷结果(正面向上或反面向上)选出 $k$ 次(正面向上)来。因此二项系数刚好等于从 $n$ 个元素选择 $k$ 个元素的组舍数。这样：
${n\choose k}=\frac{n!}{k!(n-k)!}$

1.5.5. 分割

给定一个元素个数为 $n$ 的集舍，并设 $n_1 , n_2,... , n_r$ 为非负整数，其总和为 $n$ 现在考虑将具有 $n$ 个元素的集合分解成 $r$ 个不相交的子集，使得第 $i$ 个子集元素个数刚好是 $ni$ 。分解的方法总数为：
${n\choose n_1}{n-n_1\choose n_2}{n-n_1-n_2\choose n_3}...{n-n_1-n_2-...-n_{r-1}\choose n_r}\\$
等于
$\frac{n!}{n_1!(n-n_1)!}\cdot\frac{(n-n_1)!}{n_2!(n-n_1-n_2)!}\cdot...\frac{(n-n_1-...-n_{r-1})!}{n_r!(n-n_1-...-n_{r-1}-n_r)!}$
化简得：
$\frac{n!}{n_1!\cdot n_2!\cdot ...\cdot n_r!}$
这个数称为多项系数，并且用下列记号表示:
${n \choose {n_1,n_2,...n_r}}$

2. 离散随机变量

2.1. 分布列

离散随机变量的取值概率是随机变量的最重要的特征我们用分布列表示这种特征，并且用 $p_X$ 表示随机变量 $X$ 的分布列。设 $x$ 是随机变量 $X$ 的取值，则 $X$ 取值为 $x$ 的概率定义为事件 ${x= X}$ 的概率，即所有与 $x$ 对应的试验结果所组成的事件的概率。用 $p_X(x)$ 表示
$p_X(x)=P(\{X=x\})$
对于分布列有：
$\sum_x p_X(x)=1$
对于任意一个 $X$ 的可能值的集合 $S$ , 下式成立:
$P(X\in S)=\sum_{x\in S} p_X(x)$

2.1.1. 伯努利随机变量

考虑抛掷一枚硬币，设正面向上的概率为 $p$ ，反面向上的概率为 $1-p$ . 伯努利随机变量在试验结果为正面向上时取值为 $1$ ，在试验结果为反面向上时取值为 $0$ ，即
$X=\left. \begin{cases} 1,若正面向上，\\ 0,若反面向上. \end{cases} \right.$
它的分布列为
$p_X(k)=\left. \begin{cases} p,若k=1，\\ 1-p,若k=0. \end{cases} \right.$

2.1.2. 二项随机变量

将一枚硬币抛掷 $n$ 次，每次抛掷，正面出现的概率为 $p$ ，反面出现的概率为 $1-p$ ，而且各次抛掷是相互独立的.令 $X$ 为 $n$ 次抛掷得到正面的次数我们称 $X$ 为二项随机变量，其参数为 $n$ 和 $p$ 。 $X$ 的分布列就是二项概率:
$p_X(k)=P(X=k)={n \choose k}p^k(1-p)^{n-k}, k=0,1,...,n.$
且
$\sum^{n}_{k=0}{n\choose k}p^k(1-p)^{n-k}=1$

2.1.3. 几何随机变量

在连续抛掷硬币的试验中，每次抛掷，正面出现的概率为 $p$ ，反面出现的概率为 $1-p$ ，而且各次抛掷是相互独立的。令 $X$ 为连续地抛掷一枚硬币，直到第一次出现正面所需要抛掷的次数。 $X$ 就称为几何随机变量。前 $k-1$ 次抛掷的结果为反面向上，第 $k$ 次抛掷的结果为正面向上的概率为 $(1-p)^{k-1}p$ . 因此 $X$ 的分布列为
$p_X(k)=(1-p)^{k-1},\quad k=1,2,...$

2.1.4. 泊松随即变量

设随机变量 x 的分布列由下式给出
$p_X(k)=e^{-\lambda}\frac{\lambda^k}{k!},\quad k=0,1,2...$
当二项随机变量的 $n$ 很大， $p$ 很小的时候，泊松分布与二项随机变量分布相近：
$e^{-\lambda}\frac{\lambda^k}{k!}\approx{n \choose k}p^k(1-p)^{n-k},\quad k=0,1,2...$

2.2. 随机变量的函数

设 $X$ 是一个随机变量。对 $X$ 施行不同的变换，可以得到其他的随机变量。作为例子，用 $X$ 表示今天的气温(单位为摄氏度）。作变换
$Y = 1.8X + 32,$
得到华氏温度的读数。在这个例子中 $Y$ 是 $X$ 的线性函数 $Y = g(X) = aX + b$ ，其中 $α$ 和 $b$ 是数值。我们也可以考虑 $X$ 的非线性函数
$Y = g(X)$
例如可以考虑对数度量，此时可用变换 $g(X) = log(X)$
设 $Y = g(X)$ 是随机变量 $X$ 的函数，由于对每一个试验结果，也对应一个 ( $Y$ 的)数值，故 $Y$ 本身也是一个随机变量如果 $X$ 是离散的随机变量，其对应的分布列为 $Px$ ，则 $Y$ 也是离散随机变量，其分布列可通过 $X$ 的分布列进行计算.实际上，对固定的自值， $p_Y(y)$ 的值可以通过下式计算
$p_Y(y)=\sum_{\{x|g(x)=y\}}p_X(x)$

2.3. 期望、均值和方差

假定一共转动幸运轮 $k$ 次，而其中有 $k_i$ 次转动的结果为 $m_i$ . 你所得到的总钱数为 $m_1k_1 十 m_2k_2+ …十 m_nk_n .$ 每次转动所得到的钱数为
$M={\frac{m_1k_1 m_2k_2+ …十 m_nk_n}{k}}$
现在假定k是很大的一个数，我们有理由假定概率与频率相互接近。即：
$\frac{k_i}{k} \approx p_i, \quad k=1,2...n$
这样你每次转动幸运轮所期望得到的钱数是：
$M=\frac{m_1k_1 m_2k_2+ …十 m_nk_n}{k}\approx m_1p_1+m_2p_2+...+m_np_n.$
由此引出期望的定义：
$设随机变量X的分布列为p_x。X的期望值（也成期望或者均值）由下式给出：\\ E[X]= \sum_{x} xp_X(x)$

2.3.1. 方差、矩和随机变量的函数的期望规则

期望是随机变量及其分布列的重要特征。此外，还有其他重要的特征量。例如随机变量 $X$ 的二阶矩定义为随机变量 $X^2$ 的均值。进一步 $n$ 阶矩 $E[X^n]$ 定义为 $X^n$ 的期望值。这样均值本身就刚好是一阶矩。
除了均值，随机变量 $X$ 的最重要的特征量是方差，记作 $var(X)$ 。它由下式定义:
$var(X)=E[(X-E[X])^2]$
用矩表达的方差公式为：
$var(X)=E[X^2]-(E[X])^2$
这个周矩表达的方差公式的证明可以通过下列等式完成 :
$\begin{aligned} var(X)&=\sum_x(x-E[X])^2p_X(x)\\ &=\sum_x(x^2-2E[X]+(E[X])^2)p_X(x)\\ &=\sum_xx^2p_X(x)-2E[X]\sum_xxp_X(x)+(E[X])^2\sum_xp_X(x)\\ &=E[X^2]-2(E[X])^2+(E[X])^2\\ &=E[X^2]-(E[X])^2 \end{aligned}$
由于 $(X - E[X])^2$ 只能取非负值，故方差只能取非负值.方差提供了 $X$ 在期望周围分散程度的一个测度。分散程度的另一个测度是标准差，它由下式定义
$\sigma_X=\sqrt{var(X)}$
随机变量的函数的期望规则:设随机变量 $X$ 的分布列为 $PX$ ，又设 $g(X)$ 是 $X$ 的一个函数，则 $g(X)$ 的期望由下列公式得到
$E[g(X)]=\sum_xg(x)p_X(x)$

2.3.2. 均值和方差的性质

随机变量的线性函数的均值和方差
设 $X$ 为随机变量，令： $Y=aX+b$
其中 $a,b$ 为给定的常数，则：
$E[Y]=aE[X]+b,\qquad var(Y)=a^2var(X)$

2.3.3. 某些常用随机变量的均值和方差

2.3.3.1. 伯努利随机变量的均值和方差

均值、二阶矩和方差的计算公式：
$\begin{aligned} E[X] &= 1\cdot P+ 0\cdot (1-p) = p,\\ E[X 2] &= 1^2\cdot P 十 0^2\cdot (1-p) = p,\\ var(X) &= E[X^2]-(E[X])^2 = p-p^2 = p(1-p). \end{aligned}$

2.3.3.2. 离散均匀随机变量

按定义离散均匀随机变量的取值范围是由相邻的整数所组成的有限集，而取每个整数的概率都是相等的这样它的分布列为:
$p_X(k)=\left\{ \begin{cases}{aligned} \frac{1}{b-a+1},&若k=a,a+1,...，b,\\ 0,&其他. \end{cases} \right.$
均值：
$e[X]=\frac{a+b}{2}$
为计算 $X$ 的方差，先考虑 $α=1$ 和 $b=n$ 的简单情况.利用归纳法可以证明:
$E[X^2]=\frac{1}{n}\sum_{k=1}^n k^2=\frac{1}{6}(n+1)(2n+1)$
$\begin{aligned} var(X)& = E[X^2]-(E[X])^2\\ &=\frac{1}{6}(n+1)(2n+1)-\frac{1}{4}(n+1)^2\\ &=\frac{n^2-1}{12} \end{aligned}$
对于 $α$ 和 $b$ 的一般情况，实际上在区间 $[a， b]$ 上的均匀分布与在区间 $[1 ， b-a+1]$ 上的分布之间的差异，只是一个分布是另-个分布的推移，因此两者具有相同的方差(此处区间 $[a,b]$ ，是指处于 $α$ 和 $b$ 之间的整数的集合).这样，在一般情况下， $X$ 的方差只需将简单情况下公式中的 $n$ 替换成 $b 一 α+ 1$ ，即:
$var(X)=\frac{(b-a+1)^2}{12}=\frac{(b-a)(b-a+2)}{12}$

2.3.3.3. 泊松随机变量的均值

设 $X$ 的分布列为泊松分布列，即：
$p_X(k)=e^{-\lambda}\frac{\lambda^k}{k!},\quad k=0,1,2,...,$
其中， $\lambda >0$ 为常数，其均值可以从下列等式得到：
$\begin{aligned} E[X]&=\sum_{k=0}^\infty ke^{-\lambda}\frac{\lambda^k}{k!}\\ &=\sum_{k=1}^\infty ke^{-\lambda}\frac{\lambda^k}{k!}\quad,k=0这一项为0 \\ &=\lambda\sum_{k=1}^\infty e^{-\lambda}\frac{\lambda^{k-1}}{(k-1)!}\\ &=\lambda \sum_{m=0}^\infty e^{-\lambda}\frac{\lambda^m}{m!}\\ &=\lambda \end{aligned}$

2.4. 多个随机变量的联合分布列

现在设在同一个试验中有两个随机变量 $X$ 和 $Y$ 它们的取值概率可以用它们的联合分布列刻画，并且用 $p_{X,Y}$ 表示.设 $(x ， y)$ 是 $X$ 和 $Y$ 的可能取值， $(x,y)$ 的概率质量定义为事件 ${X = x， Y 二 y}$ 的概率:
$p_{X,Y}(x,y)=P(X=x,Y=y)$
利用联合分布列可以确定任何由随机变量 $X$ 和 $Y$ 所刻画的事件的概率.例如 $A$ 是某些 $(x,y)$ 所形成的集合，则
$P((X,Y)\in A) = \sum_{(x,y)\in A}p_{X,Y}(x ， y).$
事实上，我们还可以利用 $X$ 和 $Y$ 的联合分布列计算 $X$ 或 $Y$ 的分布列
$p_X(x) = \sum_y P_{X，Y}(x,y),\quad p_Y(y) = \sum_xp_{X,Y}(x,y)$
称 $p_X(x)$ 或 $p_Y(y)$ 为边缘分布列.

2.4.1. 多个随机变量的函数

存在多个随机变量的情况下，就有可能从这些随机变量出发构造出新的随机变量.特别地，从二元函数 $Z = g(X,Y)$ 可以确定一个新的随机变量.这个新的随机变量的分布列可以从联合分布列通过下式计算
$p_Z(z)=\sum_{\{(x,y)|g(x,y)=z\}}p_{X,Y}(x,y)$
进一步地，关于随机变量的函数的期望规则可以推广成下列形式
$E[g(X,Y)]=\sum_x\sum_yg(x,y)p_{X,Y}(x,y)$
别地，当 $g$ 是形如 $αX+bY+c$ 的线性函数的时候，我们有
$E[aX+bY+c]=aE[X]+bE[Y]+c$

2.5. 条件

2.5.1. 某个事件发生的条件下的随机变量

在某个事件 $A(P(A) > 0)$ 发生的条件下，随机变量 $X$ 的条件分布列由下式定义·
$p_{X|A}(x)=P(X=x|A)=\frac{P(\{X=x\}\cap A)}{P(A)}$

2.5.2. 给定另-个随机变量的值的条件下的随机变量

设某一个试验中有两个随机变量 $X$ 和 $Y$ . 我们假定随机变量 $Y$ 已经取定一个值 $y,(p_Y(y) >0)$ ，这个 $y$ 值提供了关于 $X$ 取值的部分信息.这些信息包含于 $X$ 的给定 $Y$ 的值的条件分布列 $p_{X|Y}$ 中,所谓条件分布列就是 $p_{X|A}$ ，其中事件 $A$ 就是事件 ${Y = y}$ :
$p_{X|Y}(x|y) = P(X = x|Y = y).$
利用条件概率的定义，我们有
$p_{X|Y}(x|y)=\frac{P(X=x,Y=y)}{P(Y=y)}=\frac{p_{X,Y}(x,y)}{p_Y(y)}$
条件分布列也可以用于计算边缘分布列，即有
$p_X(x)=\sum_yp_{X,Y}(x,y)=\sum_yp_Y(y)p_{X|Y}(x|y)$
这是另一种表达方式的全概率公式

2.5.3. 条件期望

条件分布列就是一个通常的分布列，不过它的样本空间由条件所限定的试验结果组成，相应的事件的概率变成条件概率.同样的原因，条件期望就是通常的期望，不过试验结果的空间由条件所限定的试验结果所组成.相应的概率和分布列都换成条件概率和条件分布列(关于条件方差的处理是完全类似的).下面列出有关的定义和性质.
设 $X$ 和 $Y$ 为某一试验中的两个随机变量

设 $A$ 为某事件， $P(A) > 0$ 随机变量 $X$ 在给定 $A$ 发生的条件下的条件期望为
$E[X|A] = \sum_xp_{X|A}(x)$
对于函数 $g(x)$ ,我们有
$E[g(X)|A]=\sum_xg(x)p_{X|A}(x)$
给定 $Y=y$ 的条件下 $X$ 的条件期望由下式定义
$E[X|Y=y]=\sum_xxp_{X|Y}(x|y)$
设 $A_1 ， … ， A_n$ 是互不相容的事件并且形成样本空间的一个分割，假定 $P(Ai ) > 0$ 对一切 $i$ 成立.则
$E[X]=\sum_{i=1}^np(P(A_i)E[X|A_i])$
进一步假定事件 $B$ 满足一切 $i，P(A_i\cap B)>0$ ,则
$E[X|B]=\sum_{i=1}^nP(A_i|B)E[X|A_i\cap B]$
我们有
$E[X]=\sum_yp_Y(y)E[X|Y=y]$
上述最后的三个等式适用于不同的场合，但它们本质上是相互等价的，它们都可以称为全期望定理。这些定理表达了这样的一个事实:"无条件平均可以由条件平均再求平均得到。"通过全期望定理可利用条件概率或条件期望计算无条件期望 $E[X]$ .

3. 一般随机变量

3.1. 连续随机变量和概率密度函数

对于随机变量 $X$ ，若存在一个非负函数 $f_X$ ，使得
$P(X\in B)= \int_Bf_X(x)dx$
对每一个实数轴上的集合 $B$ 都成立，则称 $X$ 为连续的随机变量，函数 $f_X$ 就称为 $X$ 的概率密度函数，或简称 $PDF$ . $PDF$ 的概念与离散随机变量的分布列是相对应的特别，当 $B$ 是一个区间的时候
$P(a\le X\le b)=\int_a^bf_X(x)dx,$
一个函数能够成为 PDF，它必须是非负的，即 $f_X(x)\ge 0$ 对一切 $x$ 成立，同时它还必须满足下面的归一性条件
$\int_\infty^\infty f_X(x)dx=P(-\infty \lt X \lt \infty)=1$

3.1.1. 期望

连连续随机变量的期望的定义与离散随机变量的情况完全相似，只须将定义中的分布列置换成概率密度函数 (PDF)，求和置换成积分。

连续随机变量 X 的期望或均值是由下式定义的:
$E[X]=\int_{-\infty}^\infty xf_X(x)dx$
x 是一个连续随机变量，其 PDF 为 fx(吟，则 X 的任意函数 Y =g(X) 也是一个随机变量。无论是离散的或连续的结果，下述的期望规则总是成立的:
$E[g(X)]=\int_{-\infty}^\infty g(x)f_X(x)dx$
$X$ 的方差由下式给出:
$var(X)=E[(X-E[X])^2]=\int_{-\infty}^\infty(x-E[X])^2f_X(x)dx$
设 $Y= aX +b$ ，其中 $a$ 和 $b$ 为常数, 则
$E[Y]=aE[X]+b\qquad var(Y)=a^2var(X)$

3.1.2. 指数随机变量

若随机变量 X 的 PDF 具有下列形式:
$f_X(x)= \begin{cases} \lambda e^{-\lambda x}, &若x\ge 0，\\ 0, &其他. \end{cases}$
则称 $X$ 是指数随机变量，其中 $λ$ 是分布的参数， $\lambda \gt 0$ . 这个函数是合法的密度函数，其原因是
$\int_{-\infty}^\infty f_X(x)dx=\int_0^\infty\lambda e^{-\lambda x}dx=-e^{-\lambda x}|_0^\infty =1$

均值方差：
$E[X]=\frac{1}{\lambda},\qquad var(X)=\frac{1}{\lambda^2}$

3.2. 分布函数

我们分别用分布列(离散情况)和概率密度函数(连续情况)来刻画随机变量 $X$ 的取值规律-现在我们希望用一个统一的数学工具去刻画随机变量的取值规律.分布函数(用记号 CDF 表示简称)就能完成这个任务. $X$ 的 CDF 是一个 $x$ 的函数，对每一个 x ， $Fx(x)$ 定义为 $P(X\le x)$ . 特别地，当 $X$ 为离散或连续的情况下:
$F_X(x)=P(X\le x)=\begin{cases} \sum_{k\le x} p_X(k), &若X离散，\\ \int_{-\infty}^x f_X(t)dt, &若X连续. \end{cases}$
分布函数又称累积分布函数，累积意味着 $F_X(x)$ 将 $X$ 取值的概率由 $-\infty$ 累计到 $x$ .

3.3. 正态随机变量

一个连续随机变量 X 称为正态的或高斯的，若它的密度函数具有下列形式
$f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
其中 $\mu$ 和 $\sigma$ 是密度函数的两个参数， $\sigma$ 还必须是正数.

Normal.png

正态随机变量的均值和方差可由下式给出
$E[X]=\mu \qquad var(X)=\sigma^2$
线性变换之下随机变量的正态性保持不变
$\boxed { \\ 设 X 是正态随机变量，其均值为 μ，方差为 σ^2, 若 α \ne 0,和 b 为两个常数，则随机变量\\ Y=aX+b\\ 仍然是正态随机变量，其均值和方差由下式给出：\\ E[Y] = a\mu +b \qquad var(Y)=a^2\sigma^2 \\ }$
设正态随机变量 $Y$ 的期望为 $0$ ，方差为 $1$ ，则 $Y$ 称为标准正态随机变量以 $\Phi$ 记为它的分布函数 :
$\Phi(y)=P(Y\le y)=P(Y\lt y)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^y e^{-t^2/2}dt$

n.png

利用标准正态随机变量的概率密度函数的对称性，可将自 $y<0$ 时 $φ(y)$ 的值推导出来
$φ (-y) = 1 - φ (y) ，对一切y成立$
设 x 是正态随机变量，期望为 μ，方差为 σ2 将 X 标准化成为新的随机变量 Y:
$Y=\frac{X-\mu}{\sigma}$
由于Y是X的线性函数，所以Y也是正态随机变量：
$E[Y]=\frac{E[X]-\mu}{\sigma}=0,\qquad var(Y)=\frac{var(X)}{\sigma^2}=1$
这样， $Y$ 就是一个标准正态随机变量利用这个事实，可以计算关于 $X$ 的事件的概率.将关于 $X$ 的事件化成由 $Y$ 表达的事件，再利用标准正态分布表，就可以计算关于 $X$ 的事件的概率

3.4. 多个随机变量的联合概率密度

设 $X$ 和 $Y$ 为在同一个试验中的两个随机变量.若它们存在联合的概率密度函数，则称 $X$ 和 $Y$ 是联合连续的.那么联合的概率密度函数是如何定义的呢?非负的二元函数 $f_{X,Y}(x,y)$ 称为 $X$ 和 $Y$ 的联合概率密度函数，如对任意的平面上的二元集合 $B$ ，下式成立:
$P((X,Y)\in B)=\int\int_{(x,y)\in B}f_{X,Y}(x,y)dxdy$
上式的积分是二重积分，积分区域为 $B$ . 特别地，若 $B= \{(x,y)|α\le x \le b， c \le y \le d\}$ ，则上式变成
$P(α\le X \le b， c \le Y \le d)=\int_a^b\int_c^d f_{X,Y}(x,y)dxdy$

多个随机变量的联合概率分布不再记录，用到再补

3.5. 条件

3.5.1. 以事件为条件的随机变量

一个连续随机变量 $X$ 在给定条件 ${X\in A}(P\{X\in A\} >0)$ 下的条件概率密度函数 $f_{X|A}(x)$ 是这样定义的:它是一个非负函数，并且对一切直线上的集合 $B$ ，满足
$P(X\in B|A)=\int_B f_{X|A}(x)dx$
特别地，当 B 取成全部实数集合的时候，得到归一化等式
$\int_{-\infty }^{\infty} f_{X|A}(x)dx=1$

当我们将事件 $A$ 取成 $\{X\in A\}$ 的形式以后 $(P(X\in A) > 0)$ ，由条件概率的定义得到
$P(X \in B|X\in A)=\frac{P(X\in A,X\in B)}{P(X\in A)}=\frac{\int_{A \cap B}f_X(x)dx}{P(X \in A)}$
将这个式子与前面的关于条件密度函数的定义比较，可知
$f_{X|A}(x)= \begin{cases} \frac{f_X(x)}{P(X\in A)}, &若X\in A，\\ 0, &其它. \end{cases}$
设 $A_1 ， A_2,...,A_n$ 为互不相容的 $n$ 个事件，对每个 $i$ ， $P(A_i ) > 0$ ，并且这些事件形成样本空间的一个分割.则
$f_X(x)=\sum_{i=1}^n P(A_i)f_{X|A_i}(x)$
这是全概率公式的一种变形

3.5.2. 一个随机变量对另一个随机变量的条件

设 $X$ 和 $Y$ 为联合连续的随机变量，其联合概率密度函数为 $f_{X,Y}(x ， y)$ . 对任何满足 $f_Y(y) > 0$ 的自值，在给定 $Y=y$ 的情况下， $X$ 的条件概率密度函数由下式定义
$f_{X|Y}(x|y)=\frac{f_{X,Y}(x,y)}{f_y(y)}$
与离散情况下的公式 $p_{X|Y} (x|y) = p_{X,Y}(x,y)/p_Y(y)$ 完全相似.
而其中一个变量的边缘概率密度为：
$f_X(x)=\int_{-\infty}^{\infty}f_Y(y)f_{X|Y}(x|y)dy$
关于条件概率，我们有：
$P(X\in A|Y=y)=\int_Af_{X|Y}(x|y)dx$

3.5.3. 条件期望

对于连续随机变量 $X$ ，给定事件 $A$ 的条件期望 $E[X|A]$ 的定义与无条件期望的定义相似，不过现在我们利用条件分布密度函数 $f_{X|A}$ 来定义.类似地，条件期望 $E[X|Y = y]$ ;是通过条件概率密度函数 $f_{X|Y}$ 进行定义的.关于期望的各种性质可以原封不动地搬到条件期望中来回要注意的是，此处所有的公式与离散情况的公式是完全相似的，只是将离散情况下的求和号变成积分号，分布列改成概率密度函数.

记 $X$ 和 $Y$ 为联合连续的随机变量， $A$ 是满足 $P(A) > 0$ 的事件.

$X$ 在给定事件 $A$ 之下的条件期望由下式定义
$E[X|A]=\int_{-\infty}^\infty xf_{X|A}(x)dx$
给定 $Y=y$ 之下的条件期望由下式定义
$E[X|Y=y]=\int_{-\infty}^\infty xf_{X|Y}(x|y)dx$
期望规则仍然有效:
$E[g(X)|A]=\int_{-\infty}^\infty g(x)f_{X|A}(x)dx\\ \quad \\ E[g(X)|Y=y]=\int_{-\infty}^{\infty}g(x)f_{X|Y}(x|y)dx$
全期望定理·设 $A_1,A_2, … ， A_n$ 为互不相容的 $n$ 个事件，对每个 $i ， P(A_i) >0$ ，并且这些事件形成样本空间的一个分割.则:
$E[X]=\sum_{i=1}^n P(A_i)E[X|A_i]$
相似的：
$E[X]=\int_{-\infty}^{\infty}E[X|Y=y]f_Y(y)dy$

3.5.4. 独立性

与离散的情况完全相似，若 $X$ 和 $Y$ 为联合概率密度函数是它们各自的边缘概率密度函数的乘积，即
$f_{X,Y}(x,y) = f_X(x)f_Y(y)，对一切 x ，y 成立.$
则称 $X$ 和 $Y$ 相互独立.比较公式 $f_{X,Y}(x，y) = f_{X|Y}(x|y)f_Y(y)$ 可知，独立性条件与下式是等价的 :
$f_{X|Y}(x|y) = f_X(x)，\quad 对一切 x 和满足 f_Y(y)>0 的y成立$
基于对称性，下列条件也与独立性条件等价:
$f_{Y|X}(y|x) = f_Y(y), \quad 对一切 y 和满足 f_X(x) > 0 的 x 成立$
若 $X$ 和 $Y$ 相互独立,则：
$E[XY]=E[X]E[Y]$
对任意函数 $g$ 和 $h$ ，若 $g(X)$ 和 $h(Y)$ 相互独立，则
$E[g(X)h(Y)]=E[g(X)]E[h(Y)]\\ \quad \\ var(X+Y)=var(X)+var(Y)$

3.6. 连续贝叶斯准则

在许多实际问题中，我们会遇到未观察到的对象用一个随机变量 $X$ 代表这种未观察到的量，设其概率密度函数为 $f_X(x)$ . 我们能够观察的量是经过燥声干扰的量 $Y$ ， $Y$ 的分布律是条件分布律，其条件概率密度函数为 $f_{Y|X}(y|x)$ 当 $Y$ 的值被观察到以后，它包含 $X$ 的多少信息呢?

b.png

注意，当观察到事件 $Y = y$ 以后，所有的信息都包含在条件概率密度函数 $f_{X|Y}(x|y)$ 中.现在只须计算这个条件概率密度函数，利用公式 $f_Xf_{Y|X} = f_{X,Y} =f_Yf_{X|Y}$ 可以得到
$f_{X|Y}(x|y)=\frac{f_X(x)f_{Y|X}(y|x)}{f_Y(y)}$
这就是我们所求的公式与之等价的表达式为
$f_{X|Y}(x|y)=\frac{f_X(x)f_{Y|X}(y|x)}{\int_{-\infty}^{\infty}f_X(t)f_{Y|X}(y|t)dt}$

3.6.1. 关于离散随机变量的推断

在实际问题中，未观察到的随机变量可能是离散的随机变量.我们研究一种情况，未观察到的是一个事件 $A$ . 我们不知道 $A$ 是否发生了，事件 $A$ 的概率 $P(A)$ 是己知的.设 $Y$ 是一个连续的随机变量，并且假定条件概率密度函数 $f_{Y|A}(y)$ 和 $f_{Y|A^c}(y)$ 是已知的我们感兴趣的是事件 $A$ 的条件概率 $P(A|Y = y)$ . 这个量代表得到观察值 $y$ 以后关于事件 $A$ 的信息.

由于事件 ${Y = y}$ 是一个零概率事件，我们转而考虑事件 $\{y\le Y \le y+\delta \}$ ，其中 $\delta$ 是一个很小的正数，然后令 $\delta$ 趋向于 0. 利用贝叶斯准则，并令 $f_Y(y) > 0$ ，我们得到
$\begin{aligned} P(A|Y=y)&\approx P(A|y\le Y\le y+\delta)\\ & =\frac{P(A)P(y\le Y \le y+\delta |A)}{P(y \le Y \le y+\delta)}\\ &\approx \frac{P(A)f_{Y|A}(y)\delta }{f_Y(y)\delta}\\ &= \frac{P(A)f_{Y|A}(y)}{f_Y(y)} \end{aligned}$
利用全概率公式，可将上式的分母写成
$f_Y(y) = P(A)f_{Y|A}(y)+P(A^c)f_{Y|A^c}(y)$
这样，得到
$P(A|Y=y)=\frac{P(A)f_{Y|A}(y)}{P(A)f_{Y|A}(y)+P(A^c)f_{Y|A^c}(y)}$
令事件 $A$ 具有形式 ${N= n}$ ，其中 $N$ 是一个离散随机变量，代表未观察的随机变量记 $p_N$ 为 $N$ 的分布列.令 $Y$ 为连续随机变量，对任意 $N$ 的取值 $n$ ， $Y$ 具有条件概率密度函数 $f_{Y|N} (y[n)$ 这样上面的公式变成
$P(N=n|Y=y)=\frac{p_N(n)f_{Y|n}(y|n)}{f_Y(y)}$
利用下面的全概率定理
$f_Y(y)=\sum_ip_N(i)f_{Y|N}(y|i)$
得到
$P(N=n|Y=y)=\frac{p_N(n)f_{Y|n}(y|n)}{\sum_i p_N(i)f_{Y|N}(y|i)}$

3.6.2. 基于离散观察值的推断

与前面的情况相反，现在观察值是离散的.我们可以反解前面的关于 $P(A|Y =y)$ 的公式，得到
$f_{Y|A(y)}=\frac{f_A(y)P(A|Y=y)}{P(A)}$
其相应的等价的表达式为
$f_{Y|A(y)}=\frac{f_A(y)P(A|Y=y)}{\int_{-\infty}^\infty f_Y(t)P(A|Y=t)dt}$
这个公式可以用于对 $Y$ 的推断,当事件 $A$ 发生的时候，全部关于 $Y$ 的信息都包含
在这个条件密度中.当事件 $A$${N=n}$ 的形式的时候，可以得到相应的公式，其中 $N$ 是一个观察到的离散随机变量，该离散随机变量在条件概率 $P_{N|y}(n|y)$ 下依赖于 $Y$ .

4. 随机变量的深入内容

4.1. 随机变量函数的分布密度函数

本节考虑连续随机变量 $X$ 的函数 $Y = g(X)$ 的分布密度函数，即在己知 $X$ 的概率密度函数 (PDF) 的情况下，我们计算 $Y$ 的 PDF (也称为导出的密度函数) .主要考虑如下的两步方法

(1) 使用如下公式计算 $Y$ 的分布函数 (CDF) $F_y$
$F_Y(y)=P(g(X)\le y)=\int_{\{x|g(x)\le y\}}f_X(x)dx$
(2) 对 $Fy$ 求导，得到 $Y$ 的 PDF:
$f_Y(y)=\frac{dF_Y}{dy}(y)$

4.1.1. 线性函数

随机变量 x 的线性函数的分布密度函数：
假设 $X$ 是连续变量，密度函数为 $f_X ， α， b$ 是实数且 $α \ne 0$ ，定义
$Y=aX+b$
则
$f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})$

4.1.2. 单调函数

连续随机变量 $X$ 的严格单调函披 $Y = g(X)$ 的分布密度函数计算公式:
假设 $g$ 是严格单调函数，其逆函数 $h$ 满足:对 $X$ 的取值空间内任意一点 $x$ ，
$y=g(x),\quad 当且仅当\quad x=h(y)$
而且函数 $h$ 是可微的，则 $Y$ 在支撑集 ${y : f_Y (y) > O}$ 内的密度函数是
$f_Y(y)=f_X(h(y))\bigg| \frac{dh}{dy}(y)\bigg|$

4.1.3. 两个随机变量的函数

和一个随机变量的情形一样，我们采用两步法:先计算分布函数，然后微分得到概率密度函数.

4.1.4. 独立随机变量和----卷积

设 $X$ 和 $Y$ 是两个独立的随机变量，考虑它们的和 $Z 二 X 十 Y$ 的分布.首先，我们推导当 $X$ 和 $Y$ 都是离散的情况下， $Z$ 的分布函数.

设 $X$ 和 $Y$ 是仅取整数值的独立随机变量，它们的分布列分别为 $p_X$ 和 $p_Y$ . 则
对于任意整数 z
$\begin{aligned} p_Z(z)&=P(X+Y=z)\\ &= \sum_{\{(x,y)|x+y=z\}}P(X=x,Y=y)\\ &= \sum_xP(X=x,Y=z-x)\\ &= \sum_xp_X(x)p_Y(z-x) \end{aligned}$
得到的分布列 $p_Z$ 称为 $X$ 和 $Y$ 的分布列的卷积.

现在我们假设 $X$ 和 $Y$ 为独立的连续型随机变量，它们的概率密度函数分别为 $f_X$ 和 $f_Y$ . 我们希望求出 $Z=X+Y$ 的概率密度函数，为此，我们首先求出 $X$ 和 $Z$ 的联合概率密度函数，然后通过积分求出 $Z$ 的概率密度函数:
首先注意到,
$\begin{aligned} P(Z\le z|X=x)&=P(X+Y\le z|X=x)\\ &=P(x+Y\le z)\\ &=P(Y\le z-x) \end{aligned}$
第二个等号由 $X$ 和 $Y$ 的独立性所致.两边同时取 $z$ 的微分，可见 $f_{Z|X}(z|X) =f_Y(z-x)$ 利用乘法法则，有
$f_{X,Z}(x,z)=f_X(x)f_{Z|X}(z|x)=f_X(x)f_Y(z-x)$
由上式可推得：
$f_Z(z)=\int_{-\infty}^\infty f_{X,Z}(x,z)dx=\int_{-\infty}^\infty f_X(x)f_Y(z-x)dx$
这个公式和离散情况下的公式是完全类似的，只是用积分替代了求和，用概率密度函数代替了分布列.

卷积的普通公式表示是：
$h(x)=\int_{-\infty}^\infty f(\tau) g(x-\tau)d\tau$

4.2. 协方差和相关

$X$ 和 $Y$ 的协方差记为 $cov(X， Y)$ ，其定义如下:
$cov(X， Y) = E[(X - E[X])(Y - E[Y])].$
当 $cov(X， Y) = 0$ 时，我们说 $X$ 和 $Y$ 是不相关的.

粗略地说，一个正或者负的协方差表示在一个试验中的 $X -E[X]$ 和 $Y-E[Y]$ 的值"趋向"有相同或者相反的符号(见图 4.11). 因此，协方差的符号提供了一个 $X$ 和 $Y$ 之间关系的重要定量指标

xiefangcha.png

协方差的另一种表达为
$cov(X，Y) = E[XY] - E[X]E[Y]，$
从协方差的定义出发，我们还可以推导出协方差的一些性质,对任意的随机变量 $X， Y$ 和 $Z$ ，以及任意实数 $α$ 和 $b$ ，
$\begin{aligned} &ov(X,X)=var(X)\\ &cov(X,aY+b)=a.cov(X,Y)\\ &cov(Z,Y+Z)=cov(X,Y)+cov(X,Z) \end{aligned}$
如果 $X$ 和 $Y$ 是相互独立的，则 $E[XY] = E[X]E[Y]$ ,即有 $cov(X，Y) = 0$ 因此，如果 $X$ 和 $Y$ 是相互独立的，它们是不相关的但是，逆命题不成立.

两个方差非零的随机变量 $X$ 和 $Y$ 的相关系数 $\rho (X， Y)$ 的定义如下:
$\rho (X,Y)=\frac{cov(X,Y)}{\sqrt{var(X)var(Y)}}$
它可视为协方 $cov(X ， Y)$ 的标准化,且事实上，可证明 $\rho$ 取值在 -1 到 1 之间

随机变量和的方差

协方差可以用于计算多个随机变量(不必独立)之和的方差.特别地，设随机变量 $X_1，… ， X_n$ 具有有限的方差，则
$var(X_1 + X_2 ) = var(X_1) + var(X_2) + 2cov(X_1,X_2)，$

4.3. 再论条件期望和条件方差

一个随机变量 $X$ 的条件期望 $E[X|Y =y]$ 的值，依赖于 $Y$ 的值 $y$ .因为 $E[X|Y =y]$ 是 $y$ 的函数，所以 $E[X|Y]$ 是 $Y$ 的函数，因此也成为一个随机变量，它的分布依赖于 $Y$ 的分布.

$E[X|Y]$ 是一个随机变量，那么就应该有自己的期望 $E [E [X|Y]]$ . 使用期望法则，可得
$E[E[X|Y]]=\begin{cases} \sum_yE[X|Y=y]p_Y(y),\quad &Y离散\\ \quad \\ \int_{-\infty}^{\infty}E[E[X|Y=y]]f_Y(y)dy.\quad &Y连续 \end{cases}$
根据全期望定理，上面公式的右侧都等于 $E[X]$ .可以得出如下结论:不管随机变量 $Y$ 是离散的、连续的、或混合的，只要随机变量 $X$ 具有有限的期望 $E[X]$ ，下面的法则成立

重期望法则：
$E[E[X|Y]]=E[X]$

4.3.1. 条件期望作为估计量

如果我们将 $Y$ 视为能提供 $X$ 信息的观测值, 则我们很自然地将条件期望作为给定 $Y$ 的条件下，对 $X$ 的估计，记为
$\hat{X}=E[X|Y]$
这样，估计误差就定义为
$\tilde{X}=\hat{X}-X$
显然估计误差也是随机变量，且满足
$E[\tilde{X}|Y]=E[(\hat{X}-X)|Y]=E[\hat{X}|Y]-E[X|Y]=\hat{X}-\hat{X}=0$
所以随机变量 $E[\tilde{X}|Y]$ 恒为 $0$ : 对任意的 $y$ ， $E[\tilde{X}|Y = y] = 0$ . 运用重期望法则，还可以得到
$E[\tilde{X}]=E[E[\tilde{X}|Y]]=0$
这就表明估计误差没有系统性的正或负的偏倚

下面接着证明 $\hat{X}$ 具有另一个有趣的性质:它与估计误差 $\tilde{X}$ 是不相关的.事实
上，运用重期望法则，可得
$E[\hat{X}\tilde{X}] = E[E[\hat{X}\tilde{X}|Y]$
因为 $\hat{X}$ 完全是 $Y$ 的函数, $E[E[\hat{X}\tilde{X}|Y]]$ 中 $E[\hat{X}\tilde{X}|Y]$ 是给定 $Y=y$ 对 $X$ 积分，所以 $\hat{X}$ 提出来得到：
$E[E[\hat{X}\tilde{X}|Y]]=\hat{X}E[\tilde{X}|Y]=0$
从而：
$cov(\hat{X},\tilde{X})=E[\hat{X}\tilde{X}]-E[\hat{X}]E[\tilde{X}]=0-0\cdot E[X]=0$
故 $\hat{X}$ 与 $\tilde{X}$ 是不相关的

基于 $cov(\hat{X}，\tilde{X}) =0$ 这个结论，又注意到 $X=\hat{X}+\tilde{X}$ ，两边取方差，我们可以得到
$var(X) = var(\hat{X})+var(\tilde{X})$

4.3.2. 条件方差

首先：
$var(X|Y)=E[(X-E[X|Y])^2|Y]=E[(X-\hat{X})^2|Y]=E[\tilde{X}^2|Y]$
这是一个关于 $Y$ 的函数，所以，对于给定的 $Y$ 值目，它等于在己知 $\{Y= y\}$ 价的条件下， $X$
的条件方差为
$var(X|Y=y)=E[\tilde{X}^2|Y=y]$
利用结论: $E[\tilde{X}]=0$ 和重期望法则，我们可以将估计误差的方差写成
$var(\tilde{X})=E[\tilde{X}^2]=E[E[\tilde{X}^2|Y]]=E[var(X|Y)]$
所以，等式 $var(X) = var(\hat{X})+var(\tilde{X})$ 就可以写成如下形式

全方差法则
$var(X)=E[var(X|Y)]+var(E[X|Y])$

5. 极限理论

在本章里，我们讨论随机变量序列的渐近性质.设 $X_1.X_2 ，··， X_n$ ，为一个独立同分布的随机变量序列，其公共分布的均值为 $μ$ ，方差为 $\sigma^2$ ,定义
$S_n =X_1+X_2+...+X_n$
为这个随机变量序列的前 $n$ 项之和.本章的极限理论研究 $S_n$ 以及与 $S_n$ 相关的变量在 $n\rightarrow \infty$ 时的极限性质.
由随机变量序列的各项之间的相互独立性可知
$E[S_n]=E[X_1]+...+E[X_n]=n\mu\\ \quad \\ var(S_n)=var(X_1)+...+var(X_n)=n\sigma^2$
所以，当 $n\rightarrow \infty$ 时， $S_n$ 是发散的，不可能有极限,但是样本均值
$M_n=\frac{X_1+...+X_n}{n}=\frac{S_n}{n}$
却不同.经过简单计算就可以得到
$E[M_n]=\frac{E[S_n]}{n}=\mu,\quad var(M_n)=\frac{var(S_n)}{n^2}=\frac{\sigma^2}{n}$
所以当 $n\rightarrow \infty$ 时， $M_n$ 的方差趋于 $0$ . 也就是说， $M_n$ 的分布大部分就必然与均值 $μ$ 特别接近.这种现象就是大数定律的内容，即随机变量序列 $M_n$ ，从大样本意义上看，收敛于 $X_i$ ; 的均值 $μ$ . 按通常的解释，当样本量很大的时候，从 $X$ 抽取的样本平均值就是 $E[X]$ ，大数定律就为此提供了一个数学理论基础.

下面考虑另一个随机变量序列.用 $S_n$ 减去 $nμ$ ，可以得到零均值随机变量序列 $S_n-nμ$ ，然后再除以 $\sigma \sqrt{n}$ 页，就得到随机变量序列
$Z_n=\frac{S_n-n\mu}{\sigma \sqrt{n}}$
易证明 $E[Zn_] = 0, var(Z_n) = 1$ .

因为 $Z_n$ 的均值和方差不依赖于样本容量 $n$ ，所以它的分布既不发散，也不收敛于一点.中心极限定理就研究 $X_n$ 的分布的渐近性质，并且得出结论:当 $n$ 充分大的时候， $Z_N$ 的分布就接近标准正态分布

5.1. 马尔可夫和切比雪夫不等式

马尔可夫不等式.

粗略地讲，该不等式是指，一个非负随机变量如果均值很小时，则该随机变量取大值的概率也非常小.

设随机变量 $X$ 只取非负值，则对任意 $a> 0$
$\boxed{ P(X\ge a)\le \frac{E[X]}{a} }$
切比雪夫不等式

粗略地讲，切比雪夫不等式是指如果一个随机变量的方差非常小的话，那么该随机变量取远离均值 $μ$ 的概率也非常小.注意的是:切比雪夫不等式并不要求所涉及的随机变量非负.

设随机变量 $X$ 的均值为 $μ$ ，方差为 $σ^2$ ，则对任意 $c>0$
$\boxed{ P(|X-\mu|\ge c)\le\frac{\sigma^2}{c^2} }$

5.2. 弱大数定律

弱大数定律是指独立同分布的随机变量序列的样本均值，在大样本的情况下，以很大的概率与随机变量的均值非常接近.

考虑独立同分布随机变量序列 $X_1,...X_n$ ，公共分布的均值为 $μ$ ，方差为 $σ^2$ 定义样本均值
$M_n = \frac{1}{n}\sum_{i=1}^nX_i$
前面已经得到：
$E[M_n] = \mu,\quad var(M_n)=\frac{\sigma^2}{n}$
利用切比雪夫不等式可得
$P(|M_n-\mu|\ge \epsilon)\le \frac{\sigma^2}{n\epsilon^2},\quad 对任意的\epsilon \gt0成立$
对任意固定的 $ε> 0$ ，上面不等式的右边在 $n →∞$ 时，趋于 $0$ ，于是就得到弱大数定律.
$\boxed{ P(|M_n-\mu|\ge \epsilon) \rightarrow 0 }$

5.3. 依概率收敛

设 $Y_1 ， Y_2，…$ 是随机变量序列(不必相互独立)， $a$ 为一实数，如果对任意的 $ε> 0$ ，都有
$\lim_{n\to \infty}P(|Y_n-a|\ge \epsilon)=0,$
则称 $Yn$ 依概率收敛于 $a$ .

如果随机变量序列 $Y_1,Y_2,...$ 有分布列或者概率密度，且依概率收敛于 $a$ . 则根据依概率收敛的定义，对充分大的 $n$ ， $Y_n$ 的概率密度函数或分布列的大部分"质量"集中在 $a$ 的 $ε$ 邻域 $[α - ε， α+ε ]$ 内.所以依概率收敛的定义也可以这样描述:对任意的 $ε>0$ 和 $\delta > 0$ ，存在 $n_0$ ，使得对所有的 $n\ge n_0$ ,都有
$P(|Y_n-a|\ge\varepsilon)\le\delta$
称 $ε$ 为精度, $\delta$ 为置信水平

5.4. 中心极限定理

设 $X_1， X_2 …$ 是独立同分布的随机变量序列，序列的每一项的均值为 $μ$ ，方
差为 $σ^2$ 记
$Z_n = \frac{X_1+...+X_n-n\mu}{\sqrt{n}\sigma}$
则 $Z_n$ 的分布函数的极限分布为标准正态分布函数
$\Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-z^2/2}dz$
即
$\lim_{n\to \infty}P(Z_n)\le x)=\Phi(x),\quad 对任意的x成立$
这个定理不仅在理论上，而且在实践中也非常重要.从理论上看，该定理表明大样本的独立随机变量序列和大致是正态的.所以当人们遇到的随机量是由许多影响小但是独立的随机因素的总和的情况，此时根据中心极限定理就可以判定这个随机量的分布是正态的例如在许多自然或工程系统中的自噪声就是这种情况

从应用角度看，中心极限定理可以不必考虑随机变量具体服从什么分布，避免了分布列和概率密度函数的繁琐计算.而且，在具体计算的时候，人们只需均值和方差的信息以及简单查阅标准正态分布表即可.

5.4.1. 基于中心极限定理的近似

中心极限定理允许人们可以将 $Z_n$ 的分布看成正态分布，从而可以计算与 $Z_n$ 相关的随机变量的概率问题.因为正态分布在线性变换下仍然是正态分布，所以可以将 $S_n$ 视为均值为 $nμ$ ，方差为 $n\sigma^2$ 的正态随机变量.

令 $Sn=X_1，十… +X_n$ ，其中 $X_1，··， X_n$ 是独立同分布，均值为 $μ$ ，方差为 $σ^2$ 的随机变量序列.当 $n$ 充分大时，概率 $P(S_n \le c)$ 可以通过将 $S_n$ 视为正态随机变量来近似计算.步骤如下:

(1) 计算 $S_n$ 的均值 $n\mu$ 和方差 $n\sigma^2$ ;

(2) 计算归一化后的值 $z = (z- nμ)/(\sqrt{n}\sigma)$ ;

(3) 计算近似值
$P(S_n \le c) \approx \Phi(z),$

5.4.2. 二项分布的橡莫弗-拉普拉斯近似

用到再补

5.5. 强大数定律

设 $X_1 ， X_2 ，… ， X_n$ 是均值为 $μ$ 的独立同分布随机变量序列，则样本均值 $Mn =(X_1+X_2+ … + X_n)/n$ 以概率 1 收敛于 $μ$ ，即
$P\left( \lim_{n\to \infty}\frac{X_1+X_2+...X_n}{n}=\mu\right)=1$

6. 马尔科夫链

在本章中，我们将考虑未来会依赖于过去的过程，并且能够在某种程度上通过过去发生的情况预测未来.我们强调的模型里，过去对未来的影响归结为对状态的影响，它的概率分布随时间变化.进一步地，我们讨论的模型中，假设变量取值的状态只取有限个值.我们将分析状态值序列的概率性质.

6.1. 离散时间的马尔科夫链

考虑离散时间的马尔可夫链，其中状态在确定的离散时间点上发生变化，由于时间已经离散化，通常使用变量 $n$ 来表示时刻.在任意时刻 $n$ ，用 $X_n$ 表示链的状态，并且假定所有可能状态组成有限集合 $S$ ，称该集合为状态空间.不失一般性，除非另有陈述，我们用 $S = \{1, .… ， m\}$ 表示这个状态雪间，其中 $m$ 为某一个正整数.马尔可夫链由转移概率 $P_{ij}$ 所描述: 即当状态是 $i$ 时，下一个状态等于 $j$ 的概率是 $P_{ij}$ . 数学上表示为
$p_{ij}=P(X_{n+1}=j|X_n=i),\quad i,j\in S$
马尔可夫链的核心假设是只要时刻 $n$ 的状态为 $i$ ，不论过去发生了什么，也不论链是如何到达状态 $i$ 的，下一个时刻转移到状态 $j$ 的概率就一定是转移概率 $p_{ij}$ .数学上，马尔可夫链的特征称为马尔可夫性质，即满足:对于任意的时间 $n$ ，对任意的状态 $i， j \in S$ ，以及任意之前可能的状态序列 $i_0,...i_{n-1}$ 均有
$P(X_{n+_1}=j|X_n=i,X_{n-1} =i_{n-1},...,X_0=i_0 )=P(X_{n+1}=j|X_n=i)=p_{ij}$
所以，下一个状态 $X_{n+1}$ 的概率分布只依赖于前一个状态 $X_n$

转移概率 $P_{ij}$ 一定是非负的，且其和为 1 ，即：
$\sum_{j=1}^m p_{ij}=1 \quad 对所有的 i 成立$
马尔可夫链可以由转移概率矩阵所刻画，它是一个简单的二元矩阵，其第 $i$ 行，第 $j$ 列的元素为 $P_{ij}$ :
$\begin{bmatrix} p_{11} & p_{12} & \cdots &p_{1m}\\ p_{21} & p_{22} & \cdots &p_{2m}\\ \vdots & \vdots &\vdots &\vdots\\ p_{m1} &p_{m2} &\cdots &p_{mm}\\ \end{bmatrix}$

6.1.1. 路径的概率

给定一个马尔可夫链模型，我们可以计算未来任何-个给定状态序列的概率.
$P(X_0=i_0,X_1=i_1,...,X_n=i_n)=P(X_0=i_0)p_{i_0i_1}p_{i_1i_2}\cdots p_{i_{n-1}i_n}$
图形上，一个状态序列能表示为在转移概率图中一个转移弧线序列，并且在给定初始状态下，该路径的概率等于每个弧线上转移概率的乘积

6.1.2. $n$ 步转移概率

许多马尔可夫链问题要求计算在当前状态的条件下，未来某个时期状态的概率分布.这个概率称为 $n$ 步转移概率，定义为:
$r_{ij}(n)=P(X_n=j|X_0=i)$
$r_{ij}(n)$ 表示在给定当前状态 $i$ 的条件下， $n$ 个时间段后的状态将是 $j$ 的概率.它可以通过下面的基本迭代公式计算，该公式被称为查普曼一科尔莫戈罗夫方程(Chapman-Kolmogorov 方程，也即 C-K 方程).

$n$ 步转移概率利用迭代公式求得:
$r_{ij}(n)=\sum_{k=1}^mr_{ij}(n-1)p_{kj}, \quad 对于所有n > 1, i ,j成立，$
其中：
$r_{ij}(1)=p_{ij}$

7. 贝叶斯统计推断

统计推断是从观测数据推断未知变量或未知模型的有关信息的过程，本章和下一章旨在:

(a) 评价统计学中两种主要方法(贝叶斯统计推断和经典统计推断)的优缺点，
区别和类似之处;
(b) 介绍统计推断的主要内容(参数估计、假设经验和显著性检验);
(c) 讨论统计学中最重要的方法(最大后验概率准则，最小均方估计，最大似然
估计，回归，似然比检验，等等);
(d) 举例说明如何运用理论.

7.1. 贝叶斯推断与后验分布

贝叶斯推断过程

起点是未知随机变量 $\Theta$ 的先验分布 $P_\varTheta$ 或者 $f_\Theta$ .
得到观测向量 $X$ 的 $p_{X|\Theta}$ 或者 $f_{X|\Theta}$
一旦 $X$ 的一个特定值 $x$ 观测到后，运用贝叶斯法则计算 $\Theta$ 的后验分布.

离散型数据的贝叶斯形式：
$p_{\Theta|X}(\Theta|x)=\frac{p_\Theta(\theta)p_{X|\Theta}(x|\theta)}{\sum_{\theta'}p_\Theta(\theta')p_{X|\Theta}(x|\theta')}$
遇到连续变量时，我们只须将分布列替换成密度函数，把求和换成积分.进一步地，如果。是多维的话，相应的求和或者积分就是多重求和或者多维积分.

7.2. 点估计，假设检验，最大后验概率准则

应用在点估计和假设检验问题中的一种简单但是普遍的贝叶斯推断方法是：给定观测值 $x$ ，选择 $\theta$ 的一个取值，记为 $\hat{\theta}$ ，使得后验分布列 $p_{\Theta|X}(\theta|x)$ 达到最大(若 $\Theta$ 连续则为后验分布密度 $f_{\Theta|X}(\theta|x)$ ):
$\begin{aligned} \hat{\theta}&=arg\max_{\theta} p_{\Theta|X}(\theta|x)，\quad (\Theta 离散)\\ \hat{\theta}&=arg\max_{\theta} f_{\Theta|X}(\theta|x), \quad (\Theta 连续) \end{aligned}$
这就是最大后验概率准则.

最大后验概率估计量是观测到 $x$ ，在所有的 $\theta$ 中选 $\hat{\theta}$ 使得后验分布达到最大，当有很多这样的取值时， $\hat{\theta}$ 可在备选量中任意选定.

垃圾邮件过滤

一封电子邮件不是垃圾邮件就是正常邮件.我们引入参数 $\Theta$ 取值为 $1$ 和 $2$ ，分别代表垃圾和正常，各自取值的概率分别为 $p_\theta(1)$ ， $p_\theta(2)$ .设 $\{w_1 ，…，w_n\}$ 代表一些特殊的词(或者词的组合)形成的集合，它们出现后就表示邮件是垃圾的.对每个 $i$ ，记 $X_i$ 是伯努利随机变量，来定义 $w_i$ 是否出现在信息中，即当 $w_i$ 出现时, $X_i = 1$ ，否则 $X_i=0$ . 假设条件概率 $p_{X_i|\Theta}(x_i|1)$ 和 $p_{X_i|\Theta}(x_i|2)$ ， $x_i=0 ， 1$ 是己知的.简单起见，假设在给定 $\Theta$ 的条件下，随机变量 $X_1，\cdots， X_n$ 是相互独立的.

运用贝叶斯法则来计算垃圾邮件和正常邮件的后验概率.即
$P(\Theta=m|X_1=x_1,\cdots,X_n=x_n)=\frac{p_\Theta(m)\prod_{i=1}^n p_{X_i|\Theta(x_i| m)}} {\sum_{j=1}^2p_{\Theta}(j)\prod_{i=1}^n p_{X_i|\Theta(x_i| j)}} \quad m=1,2$
现在我们想根据响应向量 $(x_1,\cdots， x_n)$ 来判断一封邮件是垃圾还是正常的邮件最大后验概率准则是这样判断的，如果下面式子成立，则判断该邮件为垃圾邮件
$p(\Theta=1|X_1=x_1,\cdots,X_n=x_n)>P(\Theta=2|X_1=x_1,\cdots,X_n=x_n)$
或者等价地
$p_\Theta(1)\prod_{i=1}^n p_{X_i|\Theta(x_i| 1)}> p_\Theta(2)\prod_{i=1}^n p_{X_i|\Theta(x_i| 2)}$
因为 $p_\Theta(m)\prod_{i=1}^n p_{X_i|\Theta(x_i| m)}$ 中 $m$ 的取值只有1和2，哪个大取哪个就可以使 $\hat{\theta}=arg\max_{\theta} p_{\Theta|X}(\theta|x)$ 这个目标在 $\theta$ 取这个值的时候取最优值。

7.3. 贝叶斯最小均方估计

条件期望估计量有使可能的均方误差达到最小的性质(最小均方简称为 LMS)。

考虑在没杳观测值 $X$ 的情况下用常数 $\hat{\theta}$ 来估计 $\Theta$ 这个简单的问题.估计误差 $\hat{\theta}-\Theta$ 是随机的(因为 $\Theta$ 是随机的)，但是均方误差 $E[(\Theta-\hat{\theta})^2]$ 是一个由 $\hat{\theta}$ 所决定的数，可以达到最小.在这种准则下，最好的估计是 $\hat{\theta}=E[\Theta]$ ，下面来验证这一结论
对任何估计 $\hat{\theta}$ ，有
$E[(\Theta-\hat{\theta})^2]=var(\Theta-\hat{\theta})+(E[\Theta-\hat{\theta}])^2=var(\Theta)+(E[\Theta]-\hat{\theta})^2$
现在注意到 $var(\Theta)$ 与 $\hat{\theta}$ 是无关的因此只要选择使 $(E[\Theta]-\hat{\theta})^2$ 达到最小的 $\hat{\theta}$ ，也就是 $\hat{\theta}=E[\Theta]$
假设现在我们由观测值 $X$ 来估计 $\Theta$ ，同时要求均方误差最小.一旦得到 $X$ 的值 x ，情况就变得和之前讨论的一样，但是所有的事情都取决于 $X =x$ 所以可以把之前的结论拿过来并且得到结论 :条件期望 $\boxed{ E[\Theta|X = x] }$ 在所有常数 $\hat{\theta}$ 中使得条件均方误差 $E[(\Theta-\hat{\theta]})^2|X = x]$ 达到最小.

广义上来说，估计量为 $g(X)$ 的(非条件)均方估计误差定义为 $E[(\Theta-g(X))^2]$

罗密欧和朱丽叶

罗密欧和朱丽叶开始约会.但是朱丽叶在任何约会中都可能迟到，迟到时间记为随机变量 $X$ ，服从区间 $[0 ， \theta]$ 上的均匀分布，参数 $\theta$ 是未知的，是随机变量 $\Theta$ 的一个值。 $\Theta$ 是在 0 和 1 小时之间均匀分布.假设朱丽叶在第→次约会中迟到了 $x$ ，那么罗密欧如何利用这个信息去更新 $\Theta$ 的分布.

这里的先验密度函数是：
$f_\Theta(\theta)= \begin{cases} 1,&若0\le \theta \le 1 \\ 0,&其他 \end{cases}$
以及观测值的条件密度函数是
$f_{X|\Theta}(x|\theta)= \begin{cases} \frac{1}{\theta},\quad &若 0\le \theta \le 1 \\ 0,&其他 \end{cases}$
注意, $f_\Theta (\theta) f_{X|\Theta}(x|\theta)$ 只有当 $0\le \theta \le 1$ 时非零，运用贝叶斯法则可得:对任意的 $x \in [0, 1]$ ，后验密度函数是
$f_{\Theta|X}(\theta|x)=\frac{f_\Theta (\theta) f_{X|\Theta}(x|\theta)}{\int_0^1f_\Theta(\theta')f_{X|\Theta}(x|\theta')d\theta'} =\frac{1/\theta}{\int_x^1\frac{1}{\theta'}d\theta'} =\frac{1}{\theta \cdot|logx|},\quad 当x\le \theta \le1,$
现在考虑前 $n$ 次约会情况所引起的变化.假设朱丽叶迟到的时间记为 $X_1,\cdots,X_n$ ，在给定 $\Theta=\theta$ 条件下，它是区间 $[0,\theta]$ 的均匀分布，且条件独立.记 $X=(X_1,\cdots,X_n )$ , $x = (x_1,\cdots, x_n )$ , 类似于 $n=1$ 的情形，我们有
$f_{X|\Theta}(x|\theta)= \begin{cases} \frac{1}{\theta^n},\quad &若\bar{x}\le \theta \le1,\\ 0,&其他 \end{cases}$
其中 $\bar{x} = \max \{x_1,… ,x_n \}.$ 后验密度函数是
$f_{\Theta|X}(\theta|x)= \begin{cases} c(\bar{x})/\theta^n,\quad & 若\bar{x}\le \theta \le1,\\ 0, &其他 \end{cases}$
其中 $c(\bar{x})$ 是归一化常数，只依赖于 $\bar{x}$ :
$c(\bar{x})={\frac{1/\theta}{\int_x^1\frac{1}{(\theta')^n}d\theta'}}$

最大后验概率估计

考虑第一次约会迟到，对于给定的 $x$ ， $f_{\Theta|X}(\theta|x)$ 在 $Theta$ 的取值范围 $[x,1]$ 中随 $\theta$ 增大而减小,因而最大后验概率估计就是 $x$ .注意这是一个很"乐观"的估计,如果朱丽叶在第一次约会时只迟到了一小会儿 ( $x\approx 0$ )，则未来约会迟到时间的估计是很小的.

条件期望估计

条件期望估计就没有这么乐观了,事实上，有
$E[\Theta|X=x]=\int \theta \cdot f_{\Theta|X}(\theta|x) =\int_x^1 \theta \frac{1}{\theta\cdot |log x|}d\theta=\frac{1-x}{|logx|}$
下图描绘了两个估计量随着 $x$ 变化的函数可以看出对任意的迟到时间 $x$ , $E[\Theta|X = x]$ 比 $\Theta$ 的最大后验概率估计要大(这里只是预估的迟到时间更长而已，并不是说哪个更准确)

gailv.png

条件均方误差

最大后验概率估计等于 $x$ ,最小均方估计是
$\frac{1-x}{|logx|}$ .
下面来计算最大后验概率估计和最小均方估计的条件均方误差,给定 $X = x$ ,对于任意的 $\hat{\theta}$ 有
$\begin{aligned} E[(\hat{\theta}-\Theta)^2|X=x] &=\int(\hat{\theta}-\Theta)^2f_{\Theta|X}(\theta|x) \\ &=\int_x^1(\hat{\theta}-\theta)^2\cdot \frac{1}{\theta|logx|} d\theta\\ &=\int_x^1(\hat{\theta}^2-2\hat{\theta}\theta+\theta^2)\cdot \frac{1}{\theta|logx|}d\theta\\ &=\hat{\theta}^2-\hat{\theta}\frac{2(1-x)}{|logx|}+\frac{1-x^2}{2|logx|} \end{aligned}$
对于最大后验概率估计， $\hat{\theta}=x$ ，条件均方误差是
$E[(\hat{\theta}-\Theta)^2|X=x]=x^2+\frac{3x^2-4x+1}{2|logx|}$
对于最小均方估计， $\hat{\theta}= (1-x)/|logx|$ ，条件均方误差是
$E[(\hat{\theta}-\Theta)^2|X=x]=\frac{1-x^2}{2|logx|}-\left( \frac{1-x}{logx}\right)^2$
绘制两种估计(最大后验概率估计和最小均方估计)的条件均方误差.可以看出最小均方估计有一致的相对较小的均方误差.这是最小均方估计量的总体优良性能的体现

E.png

7.3.1. 估计误差的一些性质

将最小均方估计和相应的估计误差分别记为
$\hat{\Theta}=E[\Theta|X],\quad \tilde{\Theta}=\hat{\Theta}-\Theta$
估计误差的性质:

估计误差 $\tilde{\Theta}$ 是无偏的，具体说来它的条件期望和非条件期望都是 0:
$E[\tilde{\Theta}]=0,\quad E[\tilde{\Theta}|X=x]=0$
估计误差 $\tilde{\Theta}$ 和估计量 $\hat{\Theta}$ 是不相关的:
$cov(\tilde{\Theta},\hat{\Theta})=0$
$\Theta$ 的方差可以分解为
$var(\Theta)=var(\tilde{\Theta})+var(\hat{\Theta})$

7.3.2. 多次观测和多参数情况

前面的讨论都是建立在 $X$ 是一元随机变量的基础之上.但是完整的论证和结论在 $X$ 是随机向量 $X = (X_1,\cdots， X_n)$ 时也适用.因此，均方估计误差在选 $E[\Theta|X_1，\cdots， X_n ]$ 作为估计量的时候达到最小，即
$E[(\Theta-E[\Theta|X_1,\cdots,X_n])^2]\le E[(\Theta-g(X_1,\cdots,X_n))^2]$
对于所有的估计量 $g(X_1,\cdots， X_n )$ 都成立
这就对一般的最小均方估计给出了完整的解决方案，但是它一般很难实现.因此，实际中常常求助于条件期望的近似值，或者更关注于那些并不最优但是简单而易于实现的估计量.

7.4. 贝叶斯线性最小均方估计

在本节中，我们在一个较小的统计量的集合类中寻找统计量使得均方误差最小:那些观测值的线性函数的集合类.虽然这种统计量会导致较高的均方误差，但是在实际中有明显的优势:对计算要求简单，只包括均值、方差以及观测与参数之间的协方差.在最大后验估计量和最小均方估计量难以计算的情况下，这是个很有用的替代估计量.

基于观测 $X_1，\cdots， X_n$ 的 $\Theta$ 的线性估计量形式为
$\hat{\Theta}=a_1X_1+ \cdots +a_nX_n +b$
给定 $a_1 ，\cdots ， a_n ， b，$ 相应的均方误差是
$E[(\Theta-a_1X_1-\cdots-a_nX_n-b)^2]$
线性最小均方估计选择 $a_1 ，…，a_n ， b$ 使得上面的表达式取最小值.我们首先解决 $n=1$ 的情况，然后再将解法推广

7.4.1. 一次观测的线性最小均方估计

现在我们感兴趣的问题是找到 $\Theta$ 的线性估计 $\boxed{aX 十 b}$ ，使得均方误差 $E[(\Theta -aX - b)^2]$ 达到最小假设已经选好了 $a$ ，如何选 $b$ 呢?这个问题等价于选择常数 $b$ 来估计随机变量 $\Theta-aX$ ，最好的选择是
$b=E[\Theta-aX]=E[\Theta]-aE[X]$
选择了 $b$ 之后，剩下的问题是选择 $a$ 使得下面的表达式取最小值
$E[(\Theta-aX-E[\Theta]+aE[X])^2]$
将表达式写为
$\begin{aligned} var(\Theta-aX)&=\sigma_\Theta^2+a^2\sigma_X^2+2cov(\Theta,-aX)\\ &=\sigma_\Theta^2+a^2\sigma_X^2-2a\cdot cov(\Theta,X) \end{aligned}$
其中 $\sigma_\Theta$ 和 $\sigma_X$ 分别是 $\Theta$ 和 $X$ 的标准差，且
$cov(\Theta,X)=E[(\Theta-E[\Theta])(X-E[X])]$
是 $\Theta$ 和 $X$ 的协方差.为使 $var(\Theta - aX)$ (关于 $a$ 的一个二次函数)达到最小，令表达式的导数为 $0$ ，求解 $a$ . 得到
$a=\frac{cov(\Theta,X)}{\sigma^2_X}=\frac{\rho\sigma_\Theta\sigma_X}{\sigma^2_X}=\rho\frac{\sigma_\Theta}{\sigma_X}$
其中
$\rho = \frac{cov(\Theta,X)}{\sigma_\Theta \sigma_X}$
是 $\Theta$ 和 $X$ 的相关系数.根据 $a$ 的选择，所选线性估计量 $\hat{\Theta}$ 为：
$\hat{\Theta}=E[\Theta]+\frac{cov(\Theta,X)}{var(X)}(X-E[X])$
均方估计误差是
$\begin{aligned} var(\Theta-\hat{\Theta}) &=\sigma_\Theta^2+a^2\sigma_X^2-2a\cdot cov(\Theta,X) \\ &=\sigma_\Theta^2+\rho^2\frac{\sigma_\Theta^2}{\sigma_X^2}\sigma_X^2-2\rho\frac{\sigma_\Theta}{\sigma_X}\rho\sigma_\Theta\sigma_X \\ &= (1-\rho^2)\sigma_\Theta^2 \end{aligned}$

罗密欧和朱丽叶

求基于 $X$ 的 $\Theta$ 的线性最小均方估计.
$E[X|\Theta]=\int_0^\theta x\frac{1}{\theta}dx=\frac{\theta}{2}$
根据重期望法则，X的期望为：
$E[X]=E[E[X|\Theta]]=E[\frac{\Theta}{2}]=\frac{E[\Theta]}{2}=\frac{1}{4}$
进一步，利用全方差法则：
$var(X)=var(E[X|\Theta])+E(var(X|\Theta))=var(\theta/2)+\int_0^1\frac{1}{12}\theta^2d\theta=\frac{1}{4}\cdot \frac{1}{12}+\frac{1}{36}=\frac{7}{144}$
计算 $X$ 和 $\Theta$ 间的协方差，根据公式
$cov(\Theta,X)=E[\Theta X]-E[\Theta]E[X]$
和事实
$E[\Theta^2]=var(\theta)+(E[\theta])^2=\frac{1}{3}$
于是
$E[\Theta X]=E[E[\Theta X|\Theta]]=E[\Theta E[X|\Theta]]=E[\frac{\Theta^2}{2}]=\frac{1}{6}$
因此
$conv(\Theta,X)=E[\Theta X]-E[\Theta]E[X]=\frac{1}{24}$
线性最小均方估计量是
$\hat{\Theta} = E[\Theta]+\frac{cov(\Theta,X)}{var(X)}(X-E[X])=\frac{6}{7}X+\frac{2}{7}$
相应的条件均方误差:
$E[(\hat{\theta}-\Theta)^2|X=x]=\hat{\theta}^2-2\hat{\theta}\frac{1-x}{|logx|}+\frac{1-x^2}{2|logx|}$
再将 $\hat{\theta}=\frac{6}{7}X+\frac{2}{7}$ 代入上式，就得到条件均方误差

san.png

7.5. 多次观测和多参数情形

现在将求线性最小均方估计的方法推广到多元观测的情形.由单次观察值的情形推广到多次观察值到情形并不带来本质上到困难，用完全相似的方法可推导得到线性最小均方估计的公式.线性估计的系数只和各观察值的均值、方差以及不同的随机变量对的协方差有关.

样的对于多参数。也估计，考虑准则
$E[(\Theta_1-\hat{\Theta}_1)^2]+\cdots +E[(\Theta_m-\hat{\Theta}_m)^2]$
使其在所有估计量 $\hat{\Theta}_1 ，…，\hat{\Theta}_m$ 都是观测值的线性函数的情况下达到最小.这与寻找每个 $\hat{\Theta}_i$ 使得 $E[(\Theta_i-\hat{\Theta}_i)^2]$ 达到最小是等价的，因此本质上将问题化解成 $m$ 个单参数的线性最小均方估计的求解问题.

在多元观测且相互独立的情况下，单个参数的线性最小均方估计量的公式可以简化如下. $\Theta$ 是均值为 $μ$ 方差为 $\sigma_0^2$ 的随机变量， $X_1，··， X_n$ 是具有如下形式的多次观测
$X_i=\Theta+W_i,$
其中观测误差 $W_i$ 是均值为 0 方差为 $\sigma_i^2$ 的随机变量.假设 $\Theta， W_1 ,… ,W_n$ 是各不相关的，基于观测值 $X_1，··， X_n$ 的 $\Theta$ 的线性最小均方估计量是
$\hat{\Theta}=\frac{\mu/\sigma_0^2+\sum_{i=1}^2X_i/\sigma_i^2}{\sum_{i=0}^n1/\sigma_i^2}$
上面的结果的推导是非常简单的.我们的目标函数为
$h(a_1,\cdots,a_n,b)=E[(\Theta-a_1X_1-\cdots-a_nX_n-b)^2]$
为求其最小值，令其关于 $a_1 ，…，a_n ， b$ 的偏导数分别为 $0$ . 经过计算得到前面线性最小均方估计量公式中的系数为
$b=\frac{\mu /\sigma_0^2}{\sum_{i=0}^n1/\sigma_i^2},a_j=\frac{1/sigma_j^2}{\sum_{i=0}^n1/\sigma_i^2},j=1,\cdots,n$

8. 经典统计推断

本章的主要术语、问题和方法

经典统计将未知参数看作是待确定的常数.对于未知参数的每个可能取值都假设一个单独的概率模型.
在参数估计中，希望找到在未知参数取任何可能值的情况下都基本正确的估计.
在假设检验中，未知参数对应于对立假设取有限的 $m(m \ge 2)$ 个值.想要选择一个假设，使得在任何可能的假设下错误的概率最小
在显著性检验中，希望接受或者拒绝一个简单的假设，保持错误拒绝的概率适当的小
本章主要的经典推断方法.

(1)最大似然估计:选择参数使得被观测到的数据"最有可能'出现，比如使获得当前数据的概率最大

(2)线性回归:在这样的意义下找出一组成对数据之间最合适的线性关系:这种线性关系使得模型与真实数据之间差值的平方和最小

(3)似然比检验:给定两个假设，根据它们发生"可能性"的比值选择其一，使得犯错的概率适当小

(4)显著性检验:给定一个假设，当且仅当观测数据落在某个拒绝域的时候拒绝该假设特别设计的拒绝域使得错误拒绝的概率低于某个给定阈值

8.1. 经典参数估计

所谓经典的方法就是将参数。看作未知常数，而不是随机变量

8.1.1. 估计量的性质

给定观测 $X = (X_1,\cdots,X_n )$ ，估计量是指形式为 $\Theta = g(X)$ 的随机变量，注意，由于 $X$ 的分布依赖于 $\theta$ ，因而 $\hat{\Theta}$ 的分布也一样.估计量 $\hat{\Theta}$ 的取值称为估计值.

估计量的相关术语

$\hat{\Theta}_n$ 是未知参数 $\theta$ 的一个估计量，也即关于 $n$ 个的观测 $X_1，\cdots， X_n$ (服从依赖参数 $\theta$ 的分布)的一个函数

估计误差，记为 $\hat{\Theta}_n$ ，定义为 $\tilde{\Theta}_n=\hat{\Theta}_n-\theta$
估计量的偏差，记为 $b_\theta(\hat{\Theta}_n)$ ，是估计误差的期望值:
$b_\theta(\hat{\Theta}_n)=E_\theta[\hat{\Theta}_n-\theta]=E_\theta[\hat{\Theta}_n]-\theta$
$\hat{\Theta}_n$ 的期望值、方差和偏差都依赖于 $\theta$ ，而估计误差同时还依赖于观测 $X_1,\cdots,X_n$
称 $\hat{\Theta}_n$ 无偏，若 $E_\theta[\hat{\Theta}_n]=\theta$ 对于 $\theta$ 所有可能的取值都成立
称 $\hat{\Theta}_n$ 渐近无偏，若 $lim_{n\to \infty} E_\theta[\hat{\Theta}_n] =\theta$ 对于 $\theta$ 所有可能的取值都成立.
称 $\hat{\Theta}_n$ 为 $θ$ 的相合估计序列，如果对于参数所有可能的真值 $\theta$ ，序列 $\hat{\Theta}_n$ 依概率收敛到 $\theta$ .

均方误差
$E_\theta[\tilde{\Theta}_n^2]=E_\theta[\tilde{\Theta}_n]^2+var_\theta(\tilde{\Theta}_n)=b_\theta^2(\hat{\Theta}_n)+var_\theta(\hat{\Theta}_n)$

8.1.2. 最大似然估计

设观测向量 $X =(X_1 ，\cdots, X_n)$ 的联合分布列为 $p_X(x;\theta)=p_X(x_1,\cdots,x_n)(\theta可为向量或者数量)$ 其中 $x=(x_1,\cdots,x_n)$ 为 $X$ 的观察值.那么，最大似然估计是使 $\theta$ 的数值函数 $p_X(x_1 ，\cdots， x_n;\theta)$ 达到最大的参数值

$\hat{\theta}_n=arg\max_\theta p_X(x_1,\cdots,x_n;\theta)$
当 $X$ 为连续型随机变量时，可将同样的方法用于联合概率密度函数 $f_X(x;\theta)$
$\hat{\theta}_n=arg\max_\theta f_X(x_1,\cdots,x_n;\theta)$
称 $p_X(x;\theta)(f_X(x;\theta)若 X 连续型随机变量)$ 为似然函数

很多应用中都假设观测 $X_i$ 独立，从而对于每个 $i,X_i$ 是离散的随机变量，似然
函数的形式为
$p_X(x_1,\cdots,x_n;\theta)=\prod_{i=1}^np_{X_i}(x_i;\theta)$
在这种情况下，为了分析和计算的方便可让其对数达到最大，下面的式子称为对数似然函数，
$ln p_X(x_1,\cdots,x_n;\theta)=ln \prod_{i=1}^n p_{X_i}(x_i;\theta)=\sum_{i=1}^n ln p_{X_i}(x_i;\theta)$
当 $X$ 为连续型随机变量时
$ln f_X(x_1,\cdots,x_n;\theta)=\sum_{i=1}^n ln f_{X_i}(x_i;\theta)$

8.2. 线性回归

考虑两个变量的情况，建立如下形式的线性模型
$y\approx \theta_0+\theta_1x$
其中 $\theta_0$ 和 $\theta_1$ 是未知的待估参数.
特别地，给定参数的估计 $\theta_0$ 和 $\theta_1$ 模型对 $x_i$ 相应的 $y_i$ 的预测是
$\hat{y}_i=\hat{\theta}_0 +\hat{\theta}_1x_i$
称为第 $i$ 个残差.残差小的估计被认为是很好地拟合了数据.为此，线性回归在所有 $\theta_0$ 和 $\theta_1$ 中选择使得残差平方和
$\sum_{i=1}^n(y_i-\hat{y}_i)^2=\sum_{i=1}^n(y_i-\theta_0-\theta_1x_i)^2$
最小的 $\hat{\theta}_0$ 和 $\hat{\theta}_1$ 作为未知参数 $\theta_0$ 和 $\theta_1$ 的估计

经过计算得到：
$\hat{\theta}_1=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x-\bar{x})^2}\\ \quad \\ \theta_0=\bar{Y}-\hat{\theta}_1\bar{x}$
其中
$\bar{x}=\frac{1}{n} \sum_{i=1}^n x_i, \bar{y}=\frac{1}{n} \sum_{i=1}^n y_i$

8.2.1. 贝叶斯线性回归

将 $x_1，… ， x_n$ 当作给定的数， $(y_1 ,… ,y_n)$ 是向量 $Y=(Y_1,... ，Y_n)$ 的观测值，随机向量巧满足线性关系
$Y_i=\Theta_0+\Theta_1x_i+W_i$
这里， $\Theta=(\Theta_0， \Theta_1)$ 是待估参数， $W_1,… ,W_n$ 是独立同分布的随机变量，均值为 $0$ ，方差己知为 $σ^2$ . 与贝叶斯哲学思想一致，将 $\Theta_0$ 和 $\Theta_1$ 建模为随机变量.假设 $\Theta_0， \Theta_1 W_1，… ， W_n$ 相互独立， $\Theta_0,\Theta_1$ 均值为零，方差分别是 $\sigma_0^2$ 和 $\sigma_1^2$ .

基于 $\Theta_0 ， \Theta_1 ， W_1,… ,W_n$ 都是正态随机变量的假设，现在可以利用最大后验概率方法来推导贝叶斯估计量.在所有 $\theta_0$ 和 $\theta_1$ 中让后验概率密度函数 $f_{\Theta|Y}(\theta_0,\theta_1|y_1，… ， y_n)$ 最大，根据贝叶斯准则，后验概率密度函数是:
$f_\Theta(\theta_0,\theta_1)f_{\Theta|Y}(y_1,...y_n|\theta_0,\theta_1)$
再除以一个和 $(\theta_0，\theta_1)$ 无关的归一化常数根据正态性假设，表达式写成
$c\cdot exp\{-\frac{\theta_0^2}{2\sigma_0^2}\}\cdot exp\{-\frac{\theta_1^2}{2\sigma_1^2}\}\cdot \prod_{i=1}^n exp\{-\frac{(y_i-\theta_0-x_i \theta_i)^2}{2\sigma^2}\}$
其中 $c$ 是和 $(\theta_0， \theta_1 )$ 无关的正规范化常数.等价地，在所有 $\theta_0$ 和 $\theta_1$ 中使表达式
$\frac{\theta_0^2}{2\sigma_0^2}+\frac{\theta_1^2}{2\sigma_1^2}+\frac{(y_i-\theta_0-x_i \theta_i)^2}{2\sigma^2}$
最小.注意，这和前面经典推断中期望达到最小的表达式 $\sum_{i=1}^n (i-\theta_0-x_i \theta_i)^2$ 是类似的(当 $\sigma_0$ 和 $\sigma_1$ 足够大，可以忽略 $\frac{\theta_0^2}{2\sigma_0^2}$ 和 $\frac{\theta_1^2}{2\sigma_1^2}$ ,则这两个最小化是一样的).为求最小值，分别对 $\theta_0$ 和 $\theta_1$ 求导，再令导数为零经过计算，得到如下解.

$\hat{\theta_1}=\frac{\sigma_1^2}{\sigma^2+\sigma_1^2\sum_{i=1}^n(x_i-\bar{x})^2}\cdot \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}),\\ \quad \\ \hat{\theta_0}=\frac{n\sigma_0^2}{\sigma^2+n\sigma_0^2}(\bar{y}-\hat{\theta}_1\bar{x})$
其中
$\bar{x}=\frac{1}{n}\sum_{i=1}^nx_i,\quad \bar{y}=\frac{1}{n}\sum_{i=1}^n y _i$

8.2.2. 非线性回归

如果假设的关于未知参数的模型结构
$y\approx h(x;\theta)$
其中 $h$ 是给定的函数 $\theta$ 的非线性， $\theta$ 是待估参数.对于已知的数据对 $(x_i，y_i)，i=1,… ,n ，$ 欲寻找 $\theta$ 使得残差平方和
$\sum_{i=1}^n (y_i-h(x_i;\theta))^2$
达到最小.

与线性回归不同，这类最小化问题并没有确定形式的解.但是解决实际问题时有一些相当有效的计算方法.和线性回归类似，非线性最小二乘估计源自参数 $\theta$ 的最大似然估计.假定数据 $y_i$
$Y_i=h(x;\theta)+W_i,i=1,\cdots ,n$
其中 $\theta$ 为未知的回归模型的参数， $W_i$ 是独立同分布的零均值正态随机变量.这个模型的似然函数的形式为
$f_Y(y;\theta)=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}exp{-\frac{(y_i-h(x_i;\theta))^2}{2\sigma^2}}$
其中 $σ^2$ 为 $W_i$ 的方差.似然函数最大等价于上式中指数部分最大，也就是使得残差平方和最小.

概率论导论笔记

1. 样本空间与概率

1.1. 概率率性质

1.2. 条件概率

1.2.1. 乘法规则

1.3. 全概率公式

1.4. 推理和贝叶斯准则

1.4.1. 贝叶斯准则：

1.5. 独立性

1.5.1. 条件独立

1.5.2. 二项概率

1.5.3. 选排列

1.5.4. 组合

1.5.5. 分割

2. 离散随机变量

2.1. 分布列

2.1.1. 伯努利随机变量

2.1.2. 二项随机变量

2.1.3. 几何随机变量

2.1.4. 泊松随即变量

2.2. 随机变量的函数

2.3. 期望、均值和方差

2.3.1. 方差、矩和随机变量的函数的期望规则

2.3.2. 均值和方差的性质

2.3.3. 某些常用随机变量的均值和方差

2.3.3.1. 伯努利随机变量的均值和方差

2.3.3.2. 离散均匀随机变量

2.3.3.3. 泊松随机变量的均值

2.4. 多个随机变量的联合分布列

2.4.1. 多个随机变量的函数

2.5. 条件

2.5.1. 某个事件发生的条件下的随机变量

2.5.2. 给定另-个随机变量的值的条件下的随机变量

2.5.3. 条件期望

3. 一般随机变量

3.1. 连续随机变量和概率密度函数

3.1.1. 期望

3.1.2. 指数随机变量

3.2. 分布函数

3.3. 正态随机变量

3.4. 多个随机变量的联合概率密度

3.5. 条件

3.5.1. 以事件为条件的随机变量

3.5.2. 一个随机变量对另一个随机变量的条件

3.5.3. 条件期望

3.5.4. 独立性

3.6. 连续贝叶斯准则

3.6.1. 关于离散随机变量的推断

3.6.2. 基于离散观察值的推断

4. 随机变量的深入内容

4.1. 随机变量函数的分布密度函数

4.1.1. 线性函数

4.1.2. 单调函数

4.1.3. 两个随机变量的函数

4.1.4. 独立随机变量和----卷积

4.2. 协方差和相关

4.3. 再论条件期望和条件方差

4.3.1. 条件期望作为估计量

4.3.2. 条件方差

5. 极限理论

5.1. 马尔可夫和切比雪夫不等式

5.2. 弱大数定律

5.3. 依概率收敛

5.4. 中心极限定理

5.4.1. 基于中心极限定理的近似

5.4.2. 二项分布的橡莫弗-拉普拉斯近似

5.5. 强大数定律

6. 马尔科夫链

6.1. 离散时间的马尔科夫链

6.1.1. 路径的概率

6.1.2. 步转移概率

7. 贝叶斯统计推断

7.1. 贝叶斯推断与后验分布

7.2. 点估计，假设检验，最大后验概率准则

7.3. 贝叶斯最小均方估计

7.3.1. 估计误差的一些性质

7.3.2. 多次观测和多参数情况

7.4. 贝叶斯线性最小均方估计

7.4.1. 一次观测的线性最小均方估计

7.5. 多次观测和多参数情形

1.5.3. $n$ 选 $k$ 排列

6.1.2. $n$ 步转移概率