美文网首页零基础入门机器学习
PRML第一章《贝叶斯定理、高斯分布、概率论、模型选择和维度灾难

PRML第一章《贝叶斯定理、高斯分布、概率论、模型选择和维度灾难

作者: 带刺的小花_ea97 | 来源:发表于2020-01-09 17:05 被阅读0次

    PRML第一章《绪论》
    本章一共七个小章节
    1.1从一个例子多项式曲线拟合
    1.2讲解了概率论基础,分为6个小章节,包括概率密度、期望与协方差、贝叶斯概率、高斯分布、重新考察曲线拟合问题以及贝叶斯曲线拟合
    1.3模型选择
    1.4维度灾难
    1.5决策论,分为5个小章节,包括最小化错误分类率、最小化期望损失、拒绝选项、推断与决策以及回归问题的损失函数
    1.6信息论,论述了相对熵与互信息
    1.7练习

    1.1从历史的角度

    寻找数据中的模式的问题一直是分析和掌握规律的关键,比如行星运动规律和原子光谱规律,因此我们要研究的问题是利用计算机算法自动发现数据中的规律,并应用这些规律将数据进行分类。

    例子:手写体识别,一张手写体识别图像,是由一定数量的像素构成的,我们怎么根据像素构成区分出0~9呢?

    目标:构建一个机器,能够以向量x(28 \times 28像素的图像,即由784个实数组成的向量)作为输入,以数字0~9作为输出。

    分析:可以通过人工编写规则,或者依据笔画的形状区分数字,但是实际中使用这种方法将带来规则数量的激增以及不符合规则的例外,并且效果不好。

    解决方法:引入机器学习!

    术语

    • 训练集:一个由N个数字{x_1, ..., x_N}组成的庞大的数据集合被称为,用来调节模型的参数。
    • 目标向量:t表示数字的类别,它代表对应数字的标签,类别是已知的,通常是被独立考察、人工标注的。

    注意:对于每个数字图像x只有一个目标向量t

    • 学习:运行机器学习算法可以将数字的图像x作为输入,通过函数y(x),产生向量y,它与目标向量的形式相同,这个阶段称为学习阶段。
    • 测试集:一旦模型被训练出来,它就能确定新的数字的图像集合中的图像标签,这些新的数字图像就被成为测试集。
    • 泛化:正确分类与训练集不同的新样本的能力。
    • 预处理:对于大部分实际应用,原始输入向量通常被预处理,变换到新的变量空间,人们期待在新的变量空间中,模式识别问题可以被更容易的解决。
    • 特征抽取:例如:数字识别中,将数字的图像进行转化缩放,这样极大地减少了每个数字类别的变化性,这个预处理阶段有时也被叫做。
    • 降维:有时候为了加快计算速度也会进行预处理,比如人脸识别中,人脸像素太多,我们可以快速找到有用的特征,这些特征可以保存有用的判别信息使得人脸和非人脸可以正确区分开。由于这样的特征数量远远小于像素数量,因此这种预处理代表了一种形式的维数降低。
    • 有监督学习:训练数据的样本包含输入向量以及对应的目标向量的应用。
    • 分类:每个输入向量分配到有限数量离散标签中的一个
    • 回归:要求的输出由一个或者多个连续变量组成(化学药品制造过程产量的预测,在这个问题中,输入由反应物、温度和压力组成)
    • 聚类:训练数据由一组输入向量x组成,没有任何的目标值,在这样的无监督学习问题中,目标可能是发现数据中相似样本的分组。
    • 密度估计:训练数据由一组输入向量x组成,没有任何的目标值,在这样的无监督学习问题中,发现输入空间中的数据分布。
    • 数据可视化:把数据从高维空间投影到二维或者三维空间。
    • 反馈学习:在给定的条件下,找到合适的动作,使奖励达到最大值。在这里,学习问题没有给最优输出的用例,这些用例必须在一系列的实验和错误中被发现。(例如神经网络学习backgammon游戏,神经网络学习把一大组位置信息、筛子投掷的结果作为输入,产生一个好的移动作为输出,神经网络和自己玩100万局,并在游戏结束后给出奖励,奖励被合理分配到所有引起胜利的移动步骤,这是信用分配的一个例子)。反馈学习的一个通用的特征是探索利用的折衷。
    • 探索:系统尝试新类型的动作。
    • 利用:使用已知能产生较高奖励的动作。

    总上:

    本章是以一种非正式的形式介绍最重要的概念,并以例子的形式加以说明;并会介绍本书中使用的三个重要概念:概率论、决策论和信息论。

    稍后在本书中,这些思想将以更复杂的模型形式重新出现,并可以用于真实世界中的模式识别应用中。

    1.1 例子

    人工生成的例子,可以知道生成数据的精确过程以及能够与我们学习到的模型进行比较。

    例子的数据由sin(2 \pi x)产生,目标变量带有随机的噪声。

    x = (x_1, ..., x_N)^T
    t = (t_1, ..., t_N)^T

    数据:

    x_n均匀分布在区间[0,1]之间,目标数据t的获取方式是:首先计算sin(2 \pi x)的值,然后给每个点加上一个小的符合高斯分布的随机噪声,从而得到对应的t_n的值。


    10个数据点组成的图像,蓝色圆圈代表数据,绿色曲线代表生成数据的函数,我们的目标是对于某些新的值,预测的值,而无需知道绿色曲线。

    通过这种方式我们生成的数据具有了真实数据的特性:

    它们拥有了一个内在规律,这个规律是我们想学习的,但是独自的观察被随机噪声干扰,这和噪声可能由一个本质上随机的过程产生,例如放射性衰变。

    目标:

    是利用这个训练集预测对于输入变量的新值\hat x的目标变量的值\hat t

    困难:

    • 从有限的数据寻找规律
    • 观察到的数据被随机噪声干扰

    概率论:

    提供了一个框架,用来以精确的数学的形式描述以上这种不确定性。

    多项式函数拟合数据:

    y(w,x) = w_0 + w_1x + w_2x^2 + ... + w_Mx^M = \sum_{j=0}^{M} w_jx^j

    其中,M是多项式的阶数,x^j表示xj次幂,多项式w_0, w_1,..., w_M整体记作向量w

    求解

    系数w的值可以通过调整多项式拟合训练数据的方式确定,即最小化误差函数方法。

    引入平方误差函数

    E(w) = \frac{1}{2} \sum_{n = 1}^{N}{y(x_n, w) - t_n}^2

    其中\frac{1}{2}是为了方便数学计算加入的!

    平方误差函数的性质

    • 非负性
    • 当且仅当函数y(x, w)对所有的训练数据都正确预测时,其值为0。

    求解过程

    因为平常误差函数是w的二次函数,所以误差函数的最小值有一个唯一解,记作w^*,可以用解析的方法求出。最终的多项式函数由函数y(x, w^*)给出。

    多项式函数的阶数选择:模型对比与模型选择

    不同阶数的多项式曲线(红色)
    • 欠拟合(M = 0;1)
    • 过拟合(M = 9)

    定量考查模型的泛化性与M的关系

    考虑一个额外的测试集,这个测试集由100个数据点组成,生成方式与训练集的数据生成方式相同,但是包含的随机噪声值不同,对于每个M的选择,我们可以计算测试集的误差E(w^*),有时候使用均方根误差更方便:
    E_{RMS} = \sqrt{2E(w^*) / N}

    其中,除以N可以让我们以相同的基础对比不同大小的数据集,平方根确保了E_{RMS}与目标变量t使用相同的规模和单位进行度量。

    训练集和测试集对于不同的M对应的均方根误差

    选择:M=3~8

    深刻思考

    不同阶数的多项式的系数的值,随着多项式阶数的增加,系数的大小剧烈增大

    发生了什么:

    有着更大的M值的更灵活的多项式被过分地调参,使得多项式被调节成了与目标值的随机噪声相符。

    当数据集规模变大了呢?

    对于M=9的多项式在不同数据点下的表现

    对于一个给定的模型复杂度,当数据集的规模增加时,过拟合问题变得不那么严重。

    启发:

    • 数据点的数量不应该小于模型的可调节参数的数量的若干倍(比如5或者10)。
    • 不得不根据可得到的训练集的规模限制参数的数量。

    伏笔

    • 寻找模型参数的最小平方法代表了最大似然
    • 过拟合问题可以被理解为最大似然的一个通用属性
    • 通过贝叶斯方法,过拟合可以被避免
    • 从贝叶斯的角度看,对于模型参数的数量超过数据点数量的情形,没有任何难解之处
    • 实际上一个贝叶斯模型中,参数的有效数量会自动依据数据集的规模调节?

    贝叶斯HBB!

    如何控制过拟合?

    • 正则化技术:给误差函数增加一个惩罚项,使得系数不会达到很大的值,这种惩罚项最简单的形式采用所有系数的平方和的形式:
      \hat E(w) = \frac{1}{2} \sum_{n=1}^{N} {y(x_n, w) - t_n}^2 + \frac{\lambda}{2} ||w|||^2

    其中||w||^2 = w^Tw = w_0^2 + w_1^2 + ... + w_M^2,系数\lambda控制了正则化项相对于平方和误差项的重要性。

    求解

    上式也可以通过解析的方法求出最小值

    • 这样的技术在统计学上被称为收缩方法,因为这种方法缩小了系数的值。
    • 二次正则项的一个特殊情况被称为岭回归。
    • 在神经网络的情形中,这种方法叫作权值衰减。

    选择不同的\lambda下的结果对比:

    采用不同lambda下的结果对比

    分析:

    对于ln\lambda = -18,过拟合现象被压制,我们可以得到关于本质函数sin(2\pi x)的一个更好的模拟。但是如果我们把\lambda选择的过大,我们又得到了一个不好的结果,如图1.7所示的ln\lambda= 0的情形。

    对于M = 9的多项式,随着lambda的增大,系数的大小逐渐变小

    因此:

    在效果上,\lambda控制了模型的复杂性,因此决定了过拟合的程度。

    总结:

    • 我们通过使用最小化误差函数的方法解决了一个实际问题,并尝试使用了正则化的方法来确定模型复杂度的合适值,通过把给定的数据中的一部分从测试集中分离,来确定系数w,这个分离出来的验证集,也被称为拿出集,用来最优化模型的复杂度(M或者\lambda),但是在许多情况下,这种方法太浪费数据了,我们需要寻找更高级的方法。

    • 目前解决问题依赖于直觉,我们需要一个更加形式化的方法解决模式识别中的问题,即概率论!它可以让我们更深刻的理解本章中我们通过多项式拟合的问题引出的重要概念,并能让我们把这些概念扩展到更复杂的情况。

    1.2 概率论

    还记得我们上一节中提出数据的不确定性问题, 它可能是由于测量的误差引起的,也可能由于数据集的有限大小引起。

    why

    • 概率论提供了一个合适的框架,可以让我们对不确定性进行量化和计算。
    • 概率论还构成了模式识别的一个中心基础。
    • 当与决策论结合,概率论可以让我们依据目前信息作出最优的预测,即使信息是不完全的或者是含糊的。

    例子

    两个盒子, 苹果与橘子

    假设

    我们在40%的时间中选择了红盒子,60%的时间中选择了蓝盒子,并且我们选择盒子中的水果时是等可能选择的。

    参数

    • B:选择盒子的颜色,随机变量,包含两个值(r:红色,b:蓝色)
    • F:选择水果的种类,随机变量,包含两个值(a:苹果,o:橘子)

    已知概率:

    选择红盒子:\frac{4}{10},记作:p(B=r) =\frac{4}{10}
    选择蓝盒子:\frac{6}{10},记作:p(B=b) =\frac{6}{10}

    性质:

    • 位于区间[0, 1]内
    • 相互独立
    • 加和为1

    问题来了:

    选择苹果的整体概率是多少?
    假设我们选择了橘子,我们选择的是盒子是蓝盒子的概率是多少?

    两大规则的推导

    在这个例子中,涉及到两个随机变量XY,我们假设X可以取到任意的x_i,其中i = 0, ..., M,并且y可以取任意的y_j,其中j = 1, ..., L,考虑N次实验,其中我们对XY都取样,把X= x_iY=y_j的实验的数量记作n_{ij}

    考虑两个随机变量X和Y

    术语

    • 联合概率:X取值x_iY取值y_j的概率记作p(X= x_i, Y = y_j),称为X= x_iY = y_j的联合概率,它的计算方法是落在单元格i,j中的点的数量与点的总数的比值:

    p(X= x_i, Y = y_j) = \frac{n_{ij}}{N}
    p(X = x_i) = \frac{c_i}{N}
    p(Y = y_j) = \frac{r_j}{N}

    c_i = \sum_{j = 1}^{L} n_{ij}

    综合上式:

    • 边缘概率:通过把其他变量(本例中的Y)边缘化或者加和得到

    p(X= x_i) = \sum_{j = 1}^{L}p(X= x_i, Y = y_j)

    这就是概率的加和规则!

    • 条件概率:如果我们只考虑那些X = x_i的实例,那么这些实例中Y =y_j的实例所占的比例就写作p(Y = y_j|X = x_i),被称为给定X = x_iY =y_j的条件概率,它的计算方式为:
      p(Y = y_j|X = x_i) = \frac{n_{ij}}{c_i}

    综上:
    p(X = x_i, Y = y_j) = \frac{n_{ij}}{N} = \frac{n_{ij}}{c_i} · \frac{c_i}{N} = p(Y = y_j|X = x_i)p(X = x_i)

    这成为概率的乘积规则。

    两大规则:加和规则和乘积规则

    sum rule

    p(X) = \sum_{Y} p(X, Y)

    prodcut rule

    p(X,Y) = p(Y|X) · p(X)

    理解:

    p(X,Y)是联合概率,可以表述为:XY的概率。
    p(Y|X)是条件概率,可以表述为:给定X的条件下Y的概率。
    p(X)是边缘概率,可以表述为:X的概率。

    贝叶斯定理:

    根据乘积规则,以及对称性p(X,Y) = p(Y,X),立即得到:
    p(Y|X) = \frac{p(X|Y) p(Y)}{p(X)}

    如果使用加和规则,贝叶斯定理中的分母可以用出现在分子中的项表示:
    p(X) = \sum_{Y}p(X|Y)p(Y)

    我们可以把贝叶斯定理的分母看作归一化常数,用来确保上式左侧的条件概率对于所有的Y的取值之和为1。

    两个变量X和Y上的概率分布的一个例子

    回到盒子水果问题,选择苹果的整体概率是多少?

    p(B = r) = \frac{4}{10}
    p(B = b) = \frac{6}{10}

    p(B = r) + p(B = b) = 1

    给定盒子颜色情况下水果种类的全部四个概率:
    p(F = a|B = r) = \frac{1}{4}
    p(F = o|B = r) = \frac{3}{4}
    p(F = a|B = b) = \frac{3}{4}
    p(F = o|B = b) = \frac{1}{4}


    p(F = a|B = r) + p(F = o|B = r) = 1
    p(F = a|B = b) + p(F = o|B = b) = 1

    现在使用加和规则和乘积规则来计算选择一个苹果的概率:
    p(F = a) = p(F = a|B = r)P(B=r) + p(F = a|B = b)p(B = b)

    = \frac{11}{20}

    利用加和规则:p(F = o) = \frac{9}{20}

    假设我们选择了橘子,我们选择的是盒子是蓝盒子的概率是多少?

    贝叶斯定理:
    p(B = r|F = o) = \frac{p(F = o|B = r)P(B = r)}{p(F = o)} = \frac{2}{3}

    根据加和规则:
    p(B = b|F = o) = \frac{1}{3}

    换种方式表述贝叶斯定理:

    • 先验概率:如果我们在知道某个水果被选中之前,盒子被选中的概率(46开)
    • 后验概率:一旦我们知道被选中的水果是橘子,我们就可以通过贝叶斯定理来计算概率p(B|F),它是我们观察到F之后的概率。

    分析:

    在先验概率下,我们更有可能选择蓝盒子(6),但是一旦我们知道拿到的是橘子,发现更可能选择红盒子,因为红盒子中的橘子更多,提供给了我们更强的证据去选择红盒子。

    事实上,这个证据已经相当强,已经超过了先验假设,使得红盒子被选中的概率大于蓝盒子。

    最后

    如果两个变量的联合分布可以分解为两个边缘概率分布的乘积,即p(X, Y) = p(X)p(Y),那么我们就说XY相互独立。

    那么p(Y|X) = p(Y),即对于给定X的条件下Y的条件分布实际上独立于X的值。

    1.2.1 概率密度PDF

    我们已经考虑了定义在离散数据点上的概率,我们希望进一步考虑连续变量的概率。

    概率密度函数:

    如果一个实值变量x的概率落在区间(x, x + \delta x)的概率由p(x)\delta x给出(\delta x \rightarrow 0),那么p(x)叫作x的概率密度。

    x位于区间(a, b)的概率由下式给出:
    p(x \in (a, b)) = \int_{a}^{b} p(x)dx

    概率密度函数满足的性质:

    由于概率是非负的,并且x的值一定位于实数轴的某个位置,因此:

    p(x) \geqslant 0

    \int_{-\infty}^{\infty} p(x)dx = 1

    概率密度最大值的概念取决于变量的选择

    在变量以非线性的形式变化的情况下,概率密度函数通过Jacobian因子变换为与简单的函数不同的形式。

    Jacobian因子变换

    因此:
    p_y(y) = p_x(X)|\frac{dx}{dy}| = p_x(g(y))|g'(y)|

    这里我的理解是:
    对于概率密度函数而言,他取得是该变量某个点对应的导数,因此任意一个函数只要在某点与变量X的分布曲线斜率相同,就可以取其为变量X的概率密度函数。

    位于区间(-\infty, z)x的概率由累积分布函数(cumulative distribution function)给出。定义为:

    p(z) = \int_{-\infty}^{z}p(x)dx

    满足:P'(x) = p(x)

    概率密度可以表示为累计密度函数P(x)的导数。

    补充一点概率论知识

    • 概率函数,就是用函数的形式来表达概率。

    pi=P(X=ai)(i=1,2,3,4,5,6)
    在这个函数里,自变量X是随机变量的取值,因变量pi是取值的概率。
    从公式上来看,概率函数一次只能表示一个取值的概率。比如P(X=1)=1/6,这代表用概率函数的形式来表示,当随机变量取值为1的概率为1/6,一次只能代表一个随机变量的取值。

    • 概率分布


    • 概率分布函数

    发现概率分布函数的秘密了吗?它其实根本不是个新事物,它就是概率函数取值的累加结果!所以它又叫累积概率函数!

    • 概率密度函数

    连续型随机变量也有它的“概率函数”和“概率分布函数”,但是连续型随机变量的“概率函数”换了一个名字,叫做“概率密度函数”!



    概率密度函数用数学公式表示就是一个定积分的函数,定积分在数学中是用来求面积的,而在这里,你就把概率表示为面积即可!

    多变量概率密度:

    如果我们有几个连续的变量x_1, ..., x_D,整体记作向量x,那么我们可以定义联合概率密度p(x) = p(x_1, ..., x_D),使得x落在包含x的无穷小的体积\delta x的概率由p(x)\delta x给出,且多变量概率密度必须满足:

    p(x) \geqslant 0

    \int_{}^{}p(x)dx = 1

    其中,积分必须在整个x空间上进行。我们也可以考虑离散变量和连续变量相结合的联合概率
    分布。

    概率质量函数

    注意:如果x是一个离散变量,那么p(x)有时也被称为概率质量函数。

    最后

    概率的加和规则和乘积规则以及贝叶斯规则,同样可以应用到概率密度函数的情形,也可以应用于离散变量和连续变量结合的情形:

    p(x) = \int p(x, y)dy

    p(x, y) = p(y|x)p(x)

    证明略

    1.2.2 期望和协方差

    涉及到概率的一个重要操作是寻找函数的加权平均值,在概率分布p(x)下,函数f(x)的平均值被称为f(x)的期望,记作E[f]

    对于一个离散变量:

    它的定义为:
    E[f] = \sum_x p(x)f(x)

    在连续变量的情况下:

    期望以对应概率密度的积分的形式表示:
    E[f] = \int p(x)f(x)dx

    两种情形下,如果我们给定有限数量的N个点,这些点满足某个概率分布或者概率密度函数,那么期望可以通过求和的形式给出:

    E[f] = \frac{1}{N} \sum_{n = 1}^{N}f(x_n)
    N \rightarrow \infty时,上式的估计就会变得精确。

    多变量函数的期望:

    使用下标来表明被平均的是哪个变量,例如:
    E_x[f(x, y)]表示函数f(x,y)关于x的分布的平均,注意,E_x[f(x, y)]是关于y的一个函数。

    条件分布的期望:

    E_x[f|y] = \sum_x p(x|y) f(x)

    f(x)的方差,它度量了f(x)在均值E[f(x)]附近变化性的大小:

    var[f] = E[(f(x) - E[f(x)])^2]

    方差的其他形式:

    var[f] = E[f(x)^2] - E[f(x)]^2

    var[x] = E[x^2] - E[x]^2

    协方差(两个随机变量xy):

    cov[x, y] = E_{x, y}[{x - E[x]} {y - E[y] } ] = E_{x, y}[xy] - E[x]E[y]
    它表示多大程度上xy会共同变化,如果xy相互独立,那么它们的协方差为0

    协方差矩阵(两个随机向量xh和y

    cov[x, y] = E_{x, y}[{x - E[x]} {y^T - E[y]^T } ] = E_{x, y}[xy^T] - E[x]E[y^t]

    如果我么考虑向量x各个分量之间的协方差,那么我们可以将记号稍微简化一些:
    cov[x] = cov[x, x]

    补充概率论知识:

    协方差(Covariance)在[概率论]和[统计学]中用于衡量两个变量的总体[误差]。而[方差]是协方差的一种特殊情况,即当两个变量是相同的情况。

    协方差表示的是两个变量的总体的[误差],这与只表示一个变量误差的[方差]不同。** 如果两个[变量]的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。**

    1.2.3 贝叶斯定概率——频率提供了不确定性的一个定量化描述

    我们希望定量地描述不确定性,并且根据少量新的证据对不起确定性进行精确地修改,对接下来的行动进行修改,或者对最终的决策进行修改。

    回忆一下,在水果盒子中,水果种类的观察提供了相应的信息,改变了选择红盒子的概率,在那个例子中,贝叶斯定理通过将观察到的数据融合,来把先验概率转化为后验概率,因此在多项式拟合中,我们队参数w的数量进行推断时,可以采用一个类似的方法,在观察到数据前,我们有一些关于参数w的假设,这以先验概率p(w)表示。观测数据D ={t_1, ..., t_N}的效果可以通过条件概率p(D|w)表达,即贝叶斯定理的形式为:
    p(w|D) = \frac{p(D|w)p(w)}{p(D)}
    它能够让我们通过后验概率p(w|D),在观测到D之后估计w的不确定性。

    似然函数:

    贝叶斯定理右侧的量p(D|w)由观测数据集D来估计,可以看成参数向量w的函数,被称为似然函数。他表达了在不同的参数向量w下,观测数据出现的可能性的大小。注意,似然函数不是w的概率分布,并且它关于w的积分并不(一定)等于1。

    posterior \propto likelihood \times prior
    其中所有的量都是关于w的函数。


    后验概率(新信息出现后A发生的概率)=先验概率(A发生的概率)x可能性函数(新信息带出现来的调整)

    • 如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大;
    • 如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;
    • 如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小。

    贝叶斯定理的应用:

    全概率公式
    这个公式的作用是计算贝叶斯定理中的P(B)

    假定样本空间S,由两个事件AA'组成的和。例如下图中,红色部分是事件A,绿色部分是事件A',它们共同构成了样本空间S


    这时候来了个事件,如下图:

    全概率公式:

    它的含义是,如果AA'构成一个问题的全部(全部的样本空间),那么事件B的概率,就等于AA'的概率分别乘以B对这两个事件的条件概率之和。

    分母

    p(D)是一个归一化常数,确保了左侧的后验概率分布是一个合理的概率密度,积分为1。

    积分

    p(D) = \int p(D|w)p(w)dw

    对于给定的似然函数,如果我们选择加入参数的先验信息,则必须使用允许上述积分可以进行计算。

    分析

    在贝叶斯观点和频率学家观点中,似然函数p(D|w)都起着重要的作用,但是对其使用的方式有着本质不同。

    最大似然估计:

    • w被认为是一个固定的参数,它的值由某种形式的“估计”来确定,这个估计的误差通过考察可能的数据集D的概率分布得到。
    • w的值是使似然函数p(D|w)达到最大值的w值,似然函数的负对数叫作误差函数。

    贝叶斯估计:

    • 只有一个数据集D,参数的不确定性通过w的概率分布来表达。

    1.2.4 高斯分布

    对于一元实值变量,高斯分布的定义:

    N(x|\mu, \sigma^2) = \frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}exp{-\frac{1}{2\sigma^2}(x - \mu)^2}

    一元高斯分布的图像

    定义:

    • 均值:\mu
    • 方差:\sigma^2
    • 标准差:\sigma
    • 精度\beta = \frac{1}{\sigma^2}

    高斯分布满足:

    • N(x| \mu, \sigma^2) > 0

    • \int_{-\infty}^{\infty}N(x|\mu, \sigma^2)xdx = 1

    • E[x] = \int_{-\infty}^{\infty}N(x|\mu, \sigma^2)xdx = \mu(x的均值)

    • E[x^2] = \int_{-\infty}^{\infty}N(x|\mu, \sigma^2)x^2dx = \mu^2 + \sigma^2(二阶距)

    • var[x] = E[x^2] - E[x]^2 = \sigma^2(x的方差)

    • 分布的最大值被叫做众数。对于高斯分布,众数与均值恰好相等。

    D维向量x的高斯分布定义:

    N(x|\mu, \sum) = \frac{1}{(2\pi)^{\frac{D}{2}}} \frac{1}{|\sum|^{\frac{1}{2}}}exp \left\{ \frac{1}{2}(x- \mu)^T\sum^{-1}(x - \mu) \right\}

    -量\mu

    • 协方差:D \times D的矩阵\sum
    • |\sum|表示\sum的行列式

    对于独立同分布的从高斯分布中抽取的数据集的概率:

    p(x|\mu, \sigma^2) = \prod_{n = 1}^{N}N(x_n|\mu, \sigma^2)

    高斯分布的似然函数,红色曲线表示

    通过最大化似然函数来确定高斯分布中未知的参数\mu\sigma^2

    取对数为了计算方便,将连乘转化为连加:
    lnp(x|\mu, \sigma^2) = \frac{1}{2\sigma^2} \sum_{n=1}^{N}(x_n - \mu)^2 - \frac{N}{2}ln\sigma^2 - \frac{N}{2}ln(2\pi)

    推导过程

    样本均值:
    \mu_{ML} = \frac{1}{N}\sum_{n=1}^{N}x_n

    方差:
    \sigma_{ML}^2 = \frac{1}{N}\sum_{n=1}^{N}(x_n - \mu_{ML})^2

    易证:
    E[\mu_{ML}] = \mu

    E[\sigma_{ML}^2] = (\frac{N-1}{N})\sigma^2

    结论:

    最大似然估计的平均值将会得到正确的均值,但是会低估方差,因子为\frac{N-1}{N}

    这背后的直觉:


    因为它是相对样本均值进行测量的,而不是相对真实的均值进行测量

    无偏估计

    \hat \sigma^2 = \frac{N}{N-1} \sigma_{ML}^2 = \frac{1}{N-1} \sum_{n=1}^{N}(x_n - \mu_{ML})^2

    • 在实际应用中,只要N的值不太小,那么偏移的现象不是个大问题。
    • 实际上,我们会看到,最大似然的偏移问题是我们在多项式曲线拟合问题中遇到的过拟合问题的核心。

    1.2.5 重新考察曲线拟合问题

    让我们回到曲线拟合的问题,这一次,我不用误差最小化,这一次我要从概率的角度,更加深刻的认识误差函数和正则化,并且从贝叶斯的角度看下这个问题:

    用概率分布来表达关于目标变量的不确定性:

    • 假定:给定x的值,对应的t服从高斯分布,分布的均值为y(x,w)

    p(t|x, w, \beta) = N(t|y(x, w, \beta^{-1})),其中,\beta是精度参数,它对应于分布方差的倒数

    给定x条件下,t的高斯分布条件概率分布,其中均值是y(x,w),精度由参数\beta给出,它是方差的倒数

    用训练数据{x,t},通过最大似然方法,来决定未知参数w\beta的值

    首先写出似然函数:
    p(t|x,w,\beta) = \prod_{n=1}^{N}N(t_n|y(x_n,w),\beta^{-1})

    对数似然函数:
    lnp(t|x,w,\beta) = -\frac{\beta}{2} \sum_{n=1}{N} \left \{ y(x_n, w) - t_n \right \}^2 + \frac{N}{2}ln{\beta} - \frac{N}{2}ln{(2\pi)}

    求解:

    • 省略最后两项
    • \frac{1}{2}代替\frac{\beta}{2}
    • 将最大化似然函数转换为最下化负对数似然函数

    得到:
    \frac{1}{\beta_{ML}} =\frac{1}{N}\sum_{n=1}^{N} \left \{ y(x_n, w_{ML}) - t_n\right\}^2

    我们又一次首先确定控制均值的参数向量w_{ML},然后使用这个结果来寻找精度\beta_{ML}。这与简单高斯分布时的情形相同。

    已经确定了参数w\beta,我们可以对新的x进行预测,由于我们现在已经有了一个新的概率模型,预测可以通过给出t的概率分布的预测分布来表示,预测分布通过将最大似然参数代入公式:
    p(t|x, w_{ML}, \beta_{ML}) = N(t|y(x, w_{ML}, \beta_{ML}^{-1}))

    朝着贝叶斯方法前进一步:

    • 引入高斯分布
    • 使用贝叶斯定理,w的后验概率正比于先验分布和似然函数的乘积
    • 最大后验MAP

    最大化后验概率就是最小化下式:
    \frac{\beta}{2} \sum_{n = 1}^{N} \left\{ y(x_n, w) - t_n\right\}^2 + \frac{\alpha}{2}w^Tw

    bingo!

    我们看到最大化后验概率就等价于最小化正则化的平方和误差函数,正则化参数\lambda = \frac{\alpha}{\beta}

    1.2.6 贝叶斯曲线拟合

    • 在一个纯粹的贝叶斯方法中,我们应该自始至终地应用概率的加和规则和乘积规则。我们稍后会看到,这需要对所有w值进行积分。
    • 对于模式识别来说,这种积分是贝叶斯方法的核心。

    回到曲线拟合问题:

    因此我们想估计预测分布p(t |x, x, t),这里我们要假设参数\alpha\beta是固定的,事先知道的。

    使用概率的加和规则和乘积规则。因此预测概率可以写成下面的形式:
    p(t|x, x, t) = \int p(t|x, w)p(w|x, t)dw

    求解:

    • p(t|x, w)由公式p(t|x, w, \beta) = N(t|y(x, w, \beta^{-1}))给出

    • 我们省略了对\alpha\beta的依赖

    • p(w|x, t)是参数的后验分布,可以通过p(w|x, t, \alpha, \beta) \propto p(t|x, w, \beta) p(w| \alpha)归一化得到

    • 类似的,积分也可以解析的求解

    因此:

    预测分布由高斯的形式给出:
    p(t|x,x,t) = N(t|m(x), s^2(x))

    其中均值和方差分别为:
    m(x) = \beta \phi(x)^TS\sum_{n = 1}^{N} \phi(x_n)t_n
    s^2(x) = \beta^{-1} + \phi(x)^TS\phi(x)

    这里,矩阵S由下式给出:
    S^{-1} = \alpha I + \beta\sum_{n=1}^{N} \phi(x_n) \phi(x_n)^T,其中,I是单位矩阵,向量\phi_i(x) = x^i(i = 0, ..., M)

    总结:

    • 预测分布的均值和方差依赖于x

    s^2(x) = \beta^{-1} + \phi(x)^TS\phi(x)

    • 第一项表示预测值t的不确定性,这种不确定性由目标变量上的噪声造成。
    • 在最大似然的预测分布中,这种不确定性通过\beta_{ML}^{-1}表达
    • 第二项也对参数w的不确定性有影响。这是贝叶斯方法的结果。

    下图说明了正弦曲线的回归问题。


    贝叶斯方法处理多项式拟合问题得到的预测分布的结果

    1.3 模型选择

    • 找到模型中复杂度参数的合适的值。
    • 寻找一个可选的模型的范围,以便能够找到对于特定应用的最好的模型。
    • 保留一个第三方的测试集是很有必要的。这个测试集用来最终评估选择的模型的表现。
    • 但是在许多实际应用中,训练数据和测试数据都是很有限的。

    交叉验证法:

    参数为S的交叉验证方法

    交叉验证法图解

    以能够得到的数据为输出,将其划分为S组(最简单的情况下,等于数据的个数)。然后,S-1组数据被用于训练一组模型,然后在剩余的一组上进行评估。然后对于所有S的可能选择重复进行这一步骤,使用剩余的一组进行评估,这里用红色标记出来。之后,对S轮运行结果的表现得分求平均值。王哥,哒哒哒哒哒哒,我想买加特林!

    留一法

    这种方法能够让可得到数据的\frac{S-1}{S}用于训练,同时使用所有的数据来评估表现。当数据相当稀疏的时候,考虑S = N的情况很合适,其中N是数据点的总数。这种技术叫做“留一法”(leave-one-out)。

    缺点:

    • 需要进行的训练的次数随着S而增加,这对于训练本身很耗时的问题来说是个大问题。
    • 在最坏的情况下,探索这些参数的组合所需的训练次数可能是参数个数的指数函数

    信息准则:

    • 需要找到一种模型表现的度量,它只依赖于训练数据,并且不会由于过拟合产生偏移的问题。
    • 增加一个惩罚项来补偿过于复杂的模型造成的过拟合
      例如:AIC

    lnp(D|w_{ML}) - M

    这里,p(D|w_{ML})是最合适的对数似然函数,M是模型中可调节参数的数量,这个量的一种变体,被称为贝叶斯信息准则(Bayesian information criterion),或者简称为BIC,后面会提到,但是,这种准则没有考虑模型参数的不确定性,在实际应用中它们倾向于选择过于简单的模型。

    1.4 维度灾难

    例子:


    缺点:

    当需要处理的问题有很多输出数据,并且对应于高维的输出空间时,有一个问题就变得尤为突出。

    单元格的数量会随着空间的维数以指数的形式增大!

    更深刻的讨论一下高维空间中出现的问题:

    如果我们有D个输入变量,那么一个三阶多项式就可以写成:
    y(x,w) = w_0 + \sum_{i = 1}^{D} w_ix_i + \sum_{i = 1}^{D} w_{ij}x_ix_j + \sum_{i = 1}^{D} \sum_{j = 1}^{D} \sum_{k = 1}^{D} w_{ijk}x_ix_jx_k

    • 随着D的增加,独立的系数的数量(并非所有的系数都独立,因为变量x之间的互换对称性)的增长速度正比于D^3
    • 对于一个M阶多项式,系数数量的增长速度类似于D^M

    结论

    这种放法会迅速变得很笨重,因此在实际应用中很受限。

    我们在三维空间的几何直觉在高维空间将会失效!

    例如,考虑D维空间的一个半径r = 1的球体,请问,位于半径r = 1- ϵ和半径r = 1之间的部分占球的总体积的百分比是多少?

    对于不同的D,位于r =1-ϵ和r=1之间的部分与球的体积比

    结论:因此,在高维空间中,一个球体的大部分体积都聚集在表面附近的薄球壳上!

    对于大的D值,高斯分布的概率质量集中在薄球壳处。

    维度灾难固然存在,但是不能阻止我们寻找应用到高维空间的有效技术:

    • 真实的数据经常被限制在有着较低的有效维度的空间区域中,特别地,在目标值会发生重要变化的方向上也会有这种限制
    • 真实数据通常比较光滑(至少局部上比较光滑),因此大多数情况下,对于输入变量的微小改变,目标值的改变也很小,因此对于新的输入变量,我们可以通过局部的类似于插值的技术来进行预测。

    没看懂,没问题,看个例子:考虑制造业中的一个应用。

    这个应用中,照相机拍摄了传送带上的相同的平面物体,目标是判断它们的方向。每一张图片都是三维空间中的一个点。高维空间的维数由像素的数量决定。由于物体会出现在图片的不同位置,并且方向不同,因此图像之间有3个自由度,并且一组图片将会处在高维空间的一个三维流形中。由于物体的位置或方向与像素灰度值的关系很复杂,因此流形一定是高度非线性的。如果目标是学习一个模型,这个模型能够以图片作为输入,然后输出物体的方向,与位置无关,那么这个流形中就只有一个自由度了。这很有意义。

    1.5 决策论

    当决策论与概率论结合的时候,我们能够在涉及到不确定性的情况下做出最优的决策。这在模式识别中经常遇到。

    理解标签,采取行动

    但是在一个实际应用中,我们经常必须对t的值做出具体的预测,或者更一般地,根据我们对于t的可能取值的理解,采取一个具体的动作。这一方面就是决策论的主题。

    形式化的考虑一下概率论如何在做决策时起作用:

    p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}

    注意:出现在贝叶斯定理中的任意一个量都可以从联合分布p(x, C_k)中得到,要么积分,要么通过关于某个合适的变量求条件概率。

    我们现在把p(C_k)称为类C_k的先验概率,把p(C_k|x)称为对应的后验概率,因此此p(C1)表示在我们拍X光之前,一个人患癌症的概率。p(C_1|x)表示使用X光中包含的信息通过贝叶斯定理修改之后的对应的后验概率。

    如果我们的目标是最小化把x分到错误类别中的可能性,那么根据直觉,我们要选择有最大后验概率的类别。我们现在要证明,这种直觉是正确的,并且我们还会讨论进⾏决策的更加通用的标准。

    1.5.1 最小化错误分类率

    • 决策区域:我们需要一个规则将每个x的值分到一个合适的类别,这种规则将会把输入空间的切分成不同的区域R_k
    • 决策边界:每个类别都有一个决策区域,区域R_k中的所有点都被分到C_k类。决策区域
      间的边界被叫做决策边界或者决策面。

    错误分类率:
    p(mistake) = p(x \in R_1, C_2) + p(x \in R_2, C_1) = \int_{R_1}{}p(x, C_2)dx + \int_{R_2}{}p(x, C_1)dx

    分析

    因此, 如果对于给定的x值,如果p(x, C_1) > p(x, C_2),那么我们就把x分到类别C_1中。根据概率的乘积规则,我们有p(x, C_k) = p(C_k | x)p(x)。由于因子p(x)对于两项都相同,因此我们可以这样表述:

    如果我们把每个x分配到后验概率p(C_k|x)最大的类别中,那么我们分类错误的概率就会最小。

    两个类别的联合概率分布p(x, C_k)与x的关系,以及决策边界x =\hat x

    对于更一般的K类的情形,最大化正确率会稍微简单一些,即最大化下式:

    p(correct) = \sum_{k=1}^{K} p(x \in R_k,C_k) = \sum_{k = 1}^{K}\int_{R_k}{}p(x, C_k)dx

    当区域R_k的选择使得每个x都被分到使p(x, C_k)最大的类别中时,上式取得最大值。再一次使用乘积规则p(x, C_k) = p(C_k|x)p(x),并且注意到因子p(x)对于所有项都相同,我们可以看到每个x都应该被分到有着最大后验概率p(C_k | x)的类别中。

    1.5.2 最小化期望损失

    损失函数也被称为代价函数(cost function),是对于所有可能的决策或者动作可能产生的损失的一种整体的度量。我们的目标是最小化整体的损失。

    我们将不同程度的损失,记作L_kj,它可以看成损失矩阵(loss matrix)的第k, j个元素。

    癌症诊断问题的损失矩阵的例子

    平均损失根据这个联合概率分布计算,定义为:

    E[L] = \sum_{k}\sum{i} \int_{R_j} L_{kj}p(x, C_k)dx

    1.5.3 拒绝选项

    在有些区域中,类别的归属相对不确定。在某些应用中,对于这种困难的情况,避免做出决策是更合适的选择。这样会使得模型的分类错误率降低。

    拒绝选项的例子

    注意,令\theta = 1会使所有的样本都被拒绝,而如果有K个类别,那么令\theta < \frac{1}{K}将会确保没有样本被拒绝。因此被拒绝的样本比例由\theta的值控制。

    1.5.4 推断和决策

    判别函数:另一种可能的方法是,同时解决两个问题,即简单地学习一个函数,将输入x直接映射为决策。这样的函数被称为判别函数。

    三种决策问题:
    (a)首先对于每个类别C_k,独立地确定类条件密度p(x|C_k)。这是一个推断问题。然后,推
    断先验类概率p(C_k)。之后,使用贝叶斯定理 :

    p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}

    求出后验概率p(C_k|x),和往常一样,贝叶斯定理的分母可以用分子中的项表示:

    p(x) = \sum_{k}p(x|C_k)p(C_k)

    等价地,我们可以直接对联合概率分布p(x, C_k)建模,然后归一化,得到后验概率。得到后验概率之后,我们可以使用决策论来确定每个新的输入x的类别。

    显式地或者隐式地对输入以及输出进行建模的方法被称为生成式模型(generative model)。

    (b)首先解决确定后验类密度p(C_k| x)这一推断问题,接下来使用决策论来对新的输入x进行分类。这种直接对后验概率建模的方法被称为判别式模型(discriminative models)。

    (c)找到一个函数f(x),被称为判别函数。这个函数把每个输入直接映射为类别标签。例如,在二分类问题中,f(·)可能是一个二元的数值,f = 0表示类别C_1f =1表示类别C_2。这种情况下,概率不起作用。

    对比:

    方法(a)

    缺点:
    需要求解的东西最多,因为它涉及到寻找在xC_k上的联合概率分布。对于许多应用,x的维度很高,这会导致我们需要大量的训练数据才能在合理的精度下确定类条件概率密度。

    优点:
    它能够通过公式求出数据的边缘概率密度p(x),这对于检测模型中具有低概率的新数据点很有用。

    然而,如果我们只是想进行决策,那么这种方法会浪费计算资源。并且,实际上我们只是想求出后验概率p(C_k|x)。但是为了求出它,这种方法需要大量的数据来寻找联合概率p(x, C_k)。事实上,类条件密度可能包含很多对于后验概率几乎没有影响的结构,如下图所示。

    具有一元输入变量x的两个类别的类条件概率密度(左图)以及对应的后验概率密度(右图)

    方法(c):
    我们不在能够接触到后验概率p(C_k|x)。有很多强烈的理由需要计算后验概率,即使我们接下来要使用后验概率来进行决策。

    • 最小化风险:不然损失矩阵的任何改变都需要我们返回训练数据,重新解决分类问题。
    • 拒绝选项:后验概率让我们能够确定最小化误分类率的拒绝标准
    • 补偿类先验概率:人造的平衡数据中得到的后验概率除以数据集里的类比例,再乘以我们想要应用模型的目标人群中类别的比例即可。最后,我们需要归一化来保证新的后验概率之和等于1。
    • 组合模型,同时给出X光片和血液数据。p(x_I, x_B|C_k) = p(x_I|C_k)p(x_B|C_k)

    1.5.5 回归问题的损失函数

    期望损失:

    E[L] = \int \int L(t, y(x))p(x, t)dxdt

    平方损失:

    E[L] = \int \int \left\{ y(x) - t \right\}^2p(x, t)dxdt

    求解(推导略):

    y(x) = E_t[t|x]

    最小化了期望平方损失的回归函数y(x)由条件概率分布p(t|x)的均值给出

    最优解是条件均值y(x) = E_t[t|x]

    稍微不同的方式推导结果

    继而损失函数:
    E[L] = \int \left\{ y(x) - E[t|x]\right\}^2p(x)dx + \int var[t|x]p(x)dx

    我们寻找的函数y(x)只出现在第一项中。当y(x)等于E[t|x]时第一项取得最小值,这时第一项会被消去。这正是我们之前推导的结果,表明最优的最小平芳预测由条件均值给出。第二项是t的分布的方差,在x上进行了平均。它表示目标数据内在的变化性,可以被看成噪声。由于它与y(x)无关,因此它表示损失函数的不可减小的最小值。

    与分类问题相同,我们可以确定合适的概率然后使用这些概率做出最优的决策,或者我们可
    以建立直接决策的模型。

    (a) 首先解决确定联合概率密度p(x, t)的推断问题。之后,计算条件概率密度p(t|x)。最
    后,使用公式y(x) = E_t[t|x]积分,求出条件均值。
    (b) 首先解决确定条件概率密度p(t|x)的推断问题。之后使用y(x) = E_t[t|x]计算条件均值。
    (c) 直接从训练数据中寻找一个回归函数y(x)

    平方损失的一种推广:闵可夫斯基损失函数

    q = 2时,这个函数就变成了平方损失函数的期望。上图给出了不同q值下,函数|y-t|^q关于y-t的图像。当q = 2时,E[L_q]的最小值是条件均值。当q = 1时,E[L_q]的最小值是条件中位数。当q \rightarrow 0时,E[L_q]的最小值是条件众数。

    1.6 信息论

    信息量可以被看成在学习x的值的时候的“惊讶程度”。

    h(·)的形式可以这样寻找:如果我们有两个不相关的事件xy,那么我们观察到两个事件同时发生时获得的信息应该等于观察到事件各自发生时获得的信息之和,即h(x,y) = h(x) +h(y)。两个不相关事件是统计独立的,因此p(x, y) = p(x)p(y)。根据这两个关系,很容易看出h(x)一定与p(x)的对数有关。因此,我们有:

    h(x) = -log_2p(x),其中,负号确保了信息一定是正数或者是零。

    现在假设一个发送者想传输一个随机变量的值给接收者。这个过程中,他们传输的平均信息量:

    H[x] = - \sum_{x}p(x)log_2p(x)

    这个重要的量被叫做随机变量x的熵(entropy)。注意,lim_{p\rightarrow 0} p log_2 p = 0,因此只要我们遇到一个x使得p(x) = 0,那么我们就应该令p(x) log_2 p(x) = 0

    非均匀分布比均匀分布的熵要小

    我们可以这样理解熵的这种含义:考虑一个集合,包含N个完全相同的物体,这些物体要被分到若干个箱子中,使得第i个箱子中n_i个物体。考虑把物体分配到箱子中的不同方案的数量。

    N种方式选择第一个物体,有(N-1)种方式选择第二个物体,以此类推。因此总共N!种方式把N个物体分配到箱子中,其中N!表示乘积N \times (N - 1) \times...\times2\times1。然而,我们不想区分每个箱子内部物体的重新排列。在第i个箱子中,有ni!种方式对物体重新排序,因此把N个物体分配到箱子中的总方案数量为:

    这被称为乘数(multiplicity)。熵被定义为通过适当的参数放缩后的对数乘数,即:

    我们现在考虑极限N \rightarrow \infty,并且保持比值\frac{n_i}{N}固定,使用Stirling的估计:


    可以得到:

    推导时我们使用了\sum{}_in_i = N。这里,pi = lim_{N\rightarrow \infty}(\frac{n_i}{N})是一个物体被分配到第i个箱子的概率。使用物理学的术语,箱子中物体的具体分配方案被称为微观状态(microstate),整体的占领数的分布,表示为比值\frac{n_i}{N},被称为宏观状态(macrostate)。乘数W也被称为宏观状态的权重(weight)。

    我们可以把箱子表述成离散随机变量X的状态x_i,其中p(X = xi) = pi。这样,随机变
    量X的熵就是:


    由于0 \leq pi \leq 1,因此熵是非负的。当pi = 1且所有其他的p_{j \not\equiv i} = 0时,熵取得最小值0。在概率归一化的限制下,使用拉格朗日乘数法可以找到熵的最大值。因此,我们要最大化:

    ....一系列计算求解过程

    条件熵满足下面的关系:


    其中,是的微分熵,是边缘分布的微分熵。

    因此

    描述xy所需的信息是描述x自己所需的信息,加上给定x的情况下具体化y所需的额外信息。

    1.6.1 相对熵和互信息

    本节目前为止,我们已经介绍了信息论的许多概念,包括熵的关键思想。我们现在开始把这些思想关联到模式识别的问题中。

    考虑某个未知的分布p(x),假定我们已经使用一个近似的分布q(x)对它进行了建模。如果我们使用q(x)来建立一个编码体系,用来把x的值传给接收者,那么,由于我们使用了q(x)而不是真实分布p(x),因此在具体化x的值(假定我们选择了一个高效的编码系统)时,我们需要一些附加的信息。

    我们需要的平均的附加信息量(单位是nat)为:

    这被称为分布p(x)和分布q(x)之间的相对熵或者KL散度。

    如果一个函数具有如下性质:每条弦都位于函数图像或其上方(如图1.31所示),那么我们说这个函数是凸函数。位于x = ax = b之间的任何一个x值都可以写成\lambda + (1 - \lambda )b的形式,其中0\leq \lambda \leq1。弦上的对应点可以写成\lambda f(a)+ (1 - \lambda)f(b),函数的对应值为f(\lambda a +(1 - \lambda)b)。这样,凸函数的性质就可以表示为:

    这等价于要求函数的一阶导数处处为正。

    如果等号只在\lambda = 0\lambda= 1处取得,我们就说这个函数是严格凸函数(strictly convex function)。如果一个函数具有相反的性质,即每条弦都位于函数图像或其下方,那么这个函数被称为凹函数(concave function)。对应地,也有严格凹函数(strictly concave function)的定义。如果f(x)是凸函数,那么-f(x)就是凹函数。

    凸函数f(x)满足:

    其中,对于任意点集{x_i},都有\lambda_i \geq 0\sum {}_i \lambda_i = 1

    上式被称为Jensen不等式(Jensen's inequality)。

    如果我们把\lambda_i看成取值为{x_i}的离散变量x的概率分布,那么上式就可以写成:

    其中,E[·]表示期望。对于连续变量,Jensen不等式的形式为:

    将KL散度和Jensen不等式结合:

    这被称为变量x和变量y之间的互信息(mutual information)。

    使用概率的加和规则和乘积规则,我们看到互信息和条件熵之间的关系为:


    因此我们可以把**互信息看成由于知道y值而造成的x的不确定性的减小(反之亦然)。从贝叶斯的观点来看,我们可以把p(x)看成x的先验概率分布,把p(x|y)看成我们观察到新数据y之后的后验概率分布。因此互信息表示一个新的观测y造成的x的不确定性的减小。

    呼,概率论,我的心好痛!第一章就这吧!
    1.1多项式拟合引出误差函数,并对比了不同模型复杂度下的表现
    1.2讲解了PDF,期望,协方差,通过边缘概率密度和联合概率密度分布,引出了贝叶斯定理,提出了高斯分布,并从贝叶斯的角度推导了如何得到误差函数,以及正则化的原因
    1.3讲解了模型选择的方法,包括交叉验证法等数据处理手段
    1.4通过高维球体体积分析引出了高维存在缺陷,但是由于低维数据相比于高维更复杂,还是有必要研究高维下的数据转化
    1.5决策论,即计算了后验概率后如何行动,讲解了三种方法,并讲解了回归问题的损失函数与分类问题的区别
    1.6提出了熵,并进行了熵值最大化
    1.7将熵和信息进行综述,提出了相对熵和互信息

    loading...

    相关文章

      网友评论

        本文标题:PRML第一章《贝叶斯定理、高斯分布、概率论、模型选择和维度灾难

        本文链接:https://www.haomeiwen.com/subject/hczyactx.html