美文网首页
Day4 第一章 统计学习及监督学习概论(习题与总结)

Day4 第一章 统计学习及监督学习概论(习题与总结)

作者: Bocchi | 来源:发表于2023-02-15 11:58 被阅读0次

    1 几点收获与思考

    • 在监督学习中,训练数据与测试数据被看作是依联合概率密度分布 P(X,Y) 独立同分布产生的。
    • 监督学习中,概率模型是生成模型,非概率模型是判别模型。而条件概率分布和与函数可以相互转化。所以,概率模型和非概率模型的区别在于模型的内在结构。这里 “模型的内在结构” 应该指的是能否还原出联合概率分布
    • 核方法是用通过定义核函数直接计算映射之后再特征空间的内积。
    • 极大似然估计等价于当模型是条件概率分布、损失函数是对数损失函数时的经验风险最小化策略。贝叶斯估计中的最大后验概率估计是当模型是条件概率分布、损失函数是对数函数、模型复杂度由模型的先验概率表示时的结构风险最小化策略。
    • 结构风险最小化是在经验风险最小化的基础上增加表示模型复杂度的正则化项以防止过拟合。
    • 学习方法的泛化能力分析是通过理论研究泛化误差的概率上界进行的,往往比较复杂。在现实中一般使用测试误差来评价,但是结果有可能不可靠。
    • 生成方法的学习收敛速度更快,而判别方法的学习准确率更高。
      (why?希望能在后续的学习中逐渐理解)

    2 习题

    习题1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为 0 与 1 的随机变量上的概率分布。假设观测到伯努利模型 n 次独立的数据生成结果,其中 k 次的结果为 1,这时可以使用极大似然估计或贝叶斯估计来估计结果为 1 的概率。

    解:
    (1)伯努利模型
      伯努利模型是定义在取值为 0 与 1 的随机变量上的概率分布。对于随机变量 X 有,参数为 p(0<p<1),它分别以概率 p1-p 取 1 和 0 为值。随机变量 X 的概率分布函数即模型可以写为P(X=x|p)=\left\{\begin{align} & p^x(1-p)^{1-x},\ x=0,1;\\ & 0 \qquad\qquad\quad,\ \text{else}. \\ \end{align} \right.  伯努利模型的假设空间为\mathcal{F}=\{P|P(X=x|p), p\in [0,1]\}(2)伯努利模型的极大似然估计中的统计学习方法三要素
      模型:伯努利模型
      策略:经验风险最小化。当模型是条件概率分布、损失函数是对数损失函数时的经验风险最小化就等价于极大似然估计。
      算法:极大似然估计:\hat{p}=\arg\max\limits_p L(p|X)  其中 L(p|X) 为样本的似然函数
    (3)伯努利模型的贝叶斯估计中的统计学习方法三要素
      模型:伯努利模型
      策略:结构风险最小化。当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时的结构风险最小化等价于贝叶斯估计中的最大后验概率估计。
      算法:最大后验概率估计:\hat{p}=\arg\max\limits_p \hat P(p|X)  其中 \hat P(p|X)后验概率分布

    习题1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

    (参考了给出的解答思路)

    解答思路

    • 根据经验风险最小化定义,写出目标函数;
    • 根据对数损失函数,对目标函数进行整理;
    • 根据似然函数定义和极大似然估计的一般步骤,得到结论。

    解:
      已知模型是条件概率分布,损失函数为对数损失函数。设条件概率分布为 P_\theta(Y|X)(离散为概率分布列 p(x;\theta),连续为概率密度函数f(x;\theta)),样本集 D=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}N 为样本数,对数损失函数为:L(Y,P(Y|X))=-\log P(Y|X)  经验风险最小化求解最优模型就是求解最优化问题:\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i))其中,\mathcal{F} 是假设空间。
      结合上述两个式子,可以得到\begin{align} \min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i)) = & \min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} \big(-\log P(y_i|x_i)\big) \\ = & \ \frac{1}{N} \max_\limits{f\in\mathcal{F}} \big(\log \prod\limits_{i=1}^{N} P(y_i|x_i)\big)\\ \end{align}  根据似然函数的定义有 L(\theta)=L(x_1,x_2,\dots ,x_N;\theta)=\prod\limits_{i=1}^{N} P_{\theta} (y_i|x_i),再结合最大似然估计的一般过程,不难发现\arg\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i)) = \frac{1}{N} \arg \max_\limits{f\in\mathcal{F}} \big(\log L(\theta)\big)即经验风险最小化等价于极大似然估计,Q.E.D

    相关文章

      网友评论

          本文标题:Day4 第一章 统计学习及监督学习概论(习题与总结)

          本文链接:https://www.haomeiwen.com/subject/hnoykdtx.html