Day4 第一章统计学习及监督学习概论(习题与总结)

作者: Bocchi | 来源:发表于2023-02-15 11:58 被阅读0次

统计学习方法概论
《统计学习方法》读书笔记（一）
无标题文章
监督学习——学习笔记
11.25 统计学习方法
1 监督学习-概述
统计学习方法概论
统计学习方法摘要
2018-11-25 统计学习方法-李航第一章
统计学习

1 几点收获与思考

在监督学习中，训练数据与测试数据被看作是依联合概率密度分布 $P(X,Y)$ 独立同分布产生的。
监督学习中，概率模型是生成模型，非概率模型是判别模型。而条件概率分布和与函数可以相互转化。所以，概率模型和非概率模型的区别在于模型的内在结构。这里 “模型的内在结构” 应该指的是能否还原出联合概率分布。
核方法是用通过定义核函数直接计算映射之后再特征空间的内积。
极大似然估计等价于当模型是条件概率分布、损失函数是对数损失函数时的经验风险最小化策略。贝叶斯估计中的最大后验概率估计是当模型是条件概率分布、损失函数是对数函数、模型复杂度由模型的先验概率表示时的结构风险最小化策略。
结构风险最小化是在经验风险最小化的基础上增加表示模型复杂度的正则化项以防止过拟合。
学习方法的泛化能力分析是通过理论研究泛化误差的概率上界进行的，往往比较复杂。在现实中一般使用测试误差来评价，但是结果有可能不可靠。
生成方法的学习收敛速度更快，而判别方法的学习准确率更高。
（why？希望能在后续的学习中逐渐理解）

2 习题

习题1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为 0 与 1 的随机变量上的概率分布。假设观测到伯努利模型 $n$ 次独立的数据生成结果，其中 $k$ 次的结果为 1，这时可以使用极大似然估计或贝叶斯估计来估计结果为 1 的概率。

解：
（1）伯努利模型
伯努利模型是定义在取值为 0 与 1 的随机变量上的概率分布。对于随机变量 $X$ 有，参数为 $p(0<p<1)$ ，它分别以概率 $p$ 和 $1-p$ 取 1 和 0 为值。随机变量 $X$ 的概率分布函数即模型可以写为 $P(X=x|p)=\left\{\begin{align} & p^x(1-p)^{1-x},\ x=0,1;\\ & 0 \qquad\qquad\quad,\ \text{else}. \\ \end{align} \right.$ 伯努利模型的假设空间为 $\mathcal{F}=\{P|P(X=x|p), p\in [0,1]\}$ （2）伯努利模型的极大似然估计中的统计学习方法三要素
模型：伯努利模型
策略：经验风险最小化。当模型是条件概率分布、损失函数是对数损失函数时的经验风险最小化就等价于极大似然估计。
算法：极大似然估计： $\hat{p}=\arg\max\limits_p L(p|X)$ 其中 $L(p|X)$ 为样本的似然函数。
（3）伯努利模型的贝叶斯估计中的统计学习方法三要素
模型：伯努利模型
策略：结构风险最小化。当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时的结构风险最小化等价于贝叶斯估计中的最大后验概率估计。
算法：最大后验概率估计： $\hat{p}=\arg\max\limits_p \hat P(p|X)$ 其中 $\hat P(p|X)$ 为后验概率分布。

习题1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布，当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。

（参考了给出的解答思路）

解答思路

根据经验风险最小化定义，写出目标函数；
根据对数损失函数，对目标函数进行整理；
根据似然函数定义和极大似然估计的一般步骤，得到结论。

解：
已知模型是条件概率分布，损失函数为对数损失函数。设条件概率分布为 $P_\theta(Y|X)$ （离散为概率分布列 $p(x;\theta)$ ，连续为概率密度函数 $f(x;\theta)$ ），样本集 $D=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}$ ， $N$ 为样本数，对数损失函数为： $L(Y,P(Y|X))=-\log P(Y|X)$ 经验风险最小化求解最优模型就是求解最优化问题： $\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i))$ 其中， $\mathcal{F}$ 是假设空间。
结合上述两个式子，可以得到 $\begin{align} \min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i)) = & \min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} \big(-\log P(y_i|x_i)\big) \\ = & \ \frac{1}{N} \max_\limits{f\in\mathcal{F}} \big(\log \prod\limits_{i=1}^{N} P(y_i|x_i)\big)\\ \end{align}$ 根据似然函数的定义有 $L(\theta)=L(x_1,x_2,\dots ,x_N;\theta)=\prod\limits_{i=1}^{N} P_{\theta} (y_i|x_i)$ ，再结合最大似然估计的一般过程，不难发现 $\arg\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i)) = \frac{1}{N} \arg \max_\limits{f\in\mathcal{F}} \big(\log L(\theta)\big)$ 即经验风险最小化等价于极大似然估计，Q.E.D

统计学习方法概论
统计学习方法概论统计学习监督学习统计学习三要素模型评估与模型选择泛化能力生成模型与判别模型分类问题 ...
《统计学习方法》读书笔记（一）
第一章统计学习方法概论一、统计学习 1.1.统计学习的特点（1）统计学习以计算机与网络为平台，建立在它们...
无标题文章
# CH01 统计学习方法概论 [TOC] ## 前言 ### 章节目录 1. 统计学习 2. 监督学习 1....
监督学习——学习笔记
前言统计学习包括监督学习、非监督学习、半监督学习及强化学习。监督学习 (supervised learning)...
11.25 统计学习方法
1.2监督学习统计学习包括监督学习，非监督学习，半监督学习及强化学习。监督学习（supervised lear...
1 监督学习-概述
1.1 统计学习统计学习包括监督学习、非监督学习、半监督学习及强化学习。步骤：1）得到一个有限的训练数据集合2）确...
统计学习方法概论
这篇文章是对《统计学习方法》10个监督学习算法的概论和总结。分别是感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯蒂...
统计学习方法摘要
1. 统计学习统计学习的对象是数据，目的是对数据进行预测与分析，学习是由监督学习，非监督学习，半监督学习，和强化...
2018-11-25 统计学习方法-李航第一章
第一章统计学习方法概论 1.1 统计学习实现统计学习方法的步骤如下： 1）得到一个有限的训练数据集合 2）确定...
统计学习
统计学习统计学习包括监督学习，非监督学习，半监督学习以及强化学习。监督学习监督学习的任务是学习一个模型，使模...