3.1 为什么要用概率?

几乎所有的活动都需要能够在不确定性存在时进行推理。事实上，除了那些被定义为真的数学陈述，我们很难认定某个命题是千真万确的或者确保某件事一定会发生。
不确定性有三种可能的来源:

被建模系统内在的随机性。
不完全观测。
不完全建模。
在医生诊断病人的情况下，我们用概率来表示一种信任度 (degree of belief)，其中 1 表示非常肯定病人患有流感而 0 表示非常肯定病人没有流感。前面一种概率，直接与事件发生的频率相联系，被称为频率概率 (frequentist probability);而后者，涉及到确定性水平，被称为贝叶斯概率 (Bayesian probability)。

3.2 随机变量

随机变量 (random variable) 是可以随机地取不同值的变量。

3.3 概率分布

概率分布 (probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。

3.3.1 离散型变量和概率分布律函数

概率分布律函数 (probability mass function, PMF):离散型变量的概率分布
• P 的定义域必须是 x 所有可能状态的集合。
• ∀x ∈ x, 0 ≤ P (x) ≤ 1.
联合概率分布 (joint probability distribution):多个变量的概率分布
均匀分布：P(X=x)=1/k

3.3.2 连续型变量和概率密度函数

X为连续型随机变量时，用概率密度函数 (probability density function, PDF)来描述它的概率分布
• p 的定义域必须是 x 所有可能状态的集合。
• ∀x ∈ x,p(x) ≥ 0. 注意，我们并不要求 p(x) ≤ 1。
• ∫ p(x)dx = 1.
x ∼ U(a,b) 表示 x 在 [a,b] 上是均匀分布的，p(x)=1/(b-a)。

3.4 边缘概率

定义在子集上的概率分布被称为边缘概率分布 (marginal probability distribution)。
设离散型随机变量x和y,已知P(x,y)，得到P(x):

对于连续型变量，

3.5 条件概率

贝叶斯法则

3.6 条件概率的链式法则

3.7 独立性和条件独立性

相互独立 (independent)：

条件独立 (conditionally independent)：

3.8 期望，方差和协方差

期望 (expectation):

离散型随机变量

连续型随机变量

方差(variance)：

协方差 (covariance):两个变量线性相关性的强度以及这些变量的尺度

协方差的绝对值如果很大则意味着变量值变化很大并且它们同时距离各自的均值很远。如果协方差是正的,那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时,另一个变量倾向于取得相对较小的值，反之亦然。其他的衡量指标如相关系数(correlation)将每个变量的贡献归一化，为了只衡量变量的相关性，而不受变量大小的分别影响。
两个变量如果协方差为零，它们之间一定没有线性关系。
独立性表示两个变量不仅没有线性相关，而且也不存在非线性相关。
协方差矩阵 (covariance matrix)：