美文网首页
Day2 第一章 统计学习及监督学习概论(1)

Day2 第一章 统计学习及监督学习概论(1)

作者: Bocchi | 来源:发表于2023-02-13 16:34 被阅读0次

    1 统计学习

      实现统计学习方法的步骤:
      (1)得到一个有限的训练数据集合,假设数据是独立同分布产生的;
      (2)确定包含所有可能的模型的假设空间(hypothesis space),即学习模型的集合;
      (3)确定模型选择的评价准则(evaluation criterion),即学习的策略
      (4)实现求解最优模型的算法,即学习的算法
      (5)通过学习方法选择最优模型
      (6)利用学习的最优模型对新数据进行预测或分析
      本书第 1 篇介绍监督学习方法,主要包括用于分类、标注与回归问题的方法。这些方法在自然语言处理、信息检索、文本数据挖掘等领域中有着极其广泛的应用。


    2 统计学习的分类

    2.1 基本分类

    1. 监督学习
      监督学习 (supervised learning) 是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律
      输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为离散序列的预测问题称为标注问题
    2. 无监督学习
      无监督学习 (unsupervised learning) 是指从无标注数据中学习预测模型的机器学习问题。无标注数据一般是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构
    3. 强化学习
      强化学习 (reinforcement learning) 是指智能系统在与环境的连续互动中学习最优策略的机器学习问题。强化学习的本质是学习最优的序贯决策(序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策或策略,是用于随机性或不确定性动态系统最优化的决策方法)。
    4. 半监督学习与主动学习
      半监督学习 (semi-supervised learning) 是至利用标记数据和未标记数据学习预测模型的机器学习问题。半监督学习旨在利用未标注数据的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。
      主动学习 (active learning) 是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。主动学习旨在找出对学习最优帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。
      半监督学习和主动学习更接近监督学习。

    2.2 按模型分类

    1. 概率模型与非概率模型
      在监督学习中,概率模型去条件概率分布形式 P(y|x),非概率模型取函数形式 y=g(x);在无监督学习中,概率模型取条件概率分布形式 P(z|x)P(x|z), 非概率模型取函数形式 z=g(x)。在监督学习中,概率模型是生成模型,非概率模型是判别模型
      条件概率分布 P(y|x) 和函数 y=f(x) 可以相互转化。具体的条件概率分布最大化后得到函数,函数归一化后得到条件概率分布。因此,概率模型和非概率模型的区别不在于输入与输出之间的映射关系,而在于模型的内在结构。概率模型一定可以表示为联合概率分布的形式,而非概率模型则不应当存在这样的联合概率分布。
    2. 线性模型与非线性模型
      (略)
    3. 参数化模型与非参数化模型
      参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;而非参数化模型假设模型参数的维度不固定或无穷大,随着训练数据量的增加而不断增加。
      本书介绍的感知机、朴素贝叶斯、Logistics 回归、k 均值、高斯混合模型是参数化模型。决策树、支持向量机、AdaBoost、k 近邻、潜在语义分析、概率潜在语义分析、潜在 Dirichlet 分配是非参数化模型。
      参数化模型适合问题简单的情况,现实中问题往往更加复杂,非参数化模型更加有效。

    2.3 按技巧分类

    1. 贝叶斯学习
      贝叶斯学习 (Bayesian learning) 主要思想是,在概率模型的学习和推理中,利用贝叶斯定理,计算给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测。
      假设随机变量 D 表示数据,随机变量 \theta 表示模型参数。根据贝叶斯定理,可以用以下公式计算后验概率 P(\theta|D)P(\theta|D)=\frac{P(\theta)P(\theta|D)}{P(D)}其中 P(\theta) 是先验概率,P(D|\theta) 是似然函数。
      模型估计时,估计整个后验概率分布 P(\theta|D)。如果需要给出一个模型,通常取后验概率最大的模型。
      预测时,计算数据对后验概率分布的期望:P(x|D)=\int P(x|\theta,D)P(\theta|D) \mathrm{d}\theta其中 x 为新样本。
    2. 核方法
      核方法 (kernel method) 是使用合欢树表示和学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。有一些线性模型的学习方法基于相似度计算,更具体地,基于向量内积计算。核方法可以把他们扩展到非线性模型的学习
      直接的做法是显示地定义从输入向量到特征空间的映射(从低纬到高维),在特征空间中进行内积计算。核方法的技巧在于不显示的定义这个映射,而是直接定义核函数,即映射之后在特种空间的内积。这样可以简化计算,得到相同的结果。


    3 统计学习方法三要素(以监督学习为例)

    3.1 模型

      统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间 (hypothesis space) 包含所有可能的条件概率分布或决策函数。假设空间一般用 \mathcal{F} 表示。
      假设空间可以定义为决策函数的集合:\mathcal{F}=\{f|Y=f(X)\}其中,XY是定义在输入空间 \mathcal{X} 和输出空间 \mathcal{Y} 上的变量。这时 \mathcal{F} 通常是由一个参数向量决定的函数族:\mathcal{F}= \{f|Y=f_\theta(X), \theta\in\mathbb{R}^n\}参数向量 \theta 取值于 n 维欧氏空间 \mathbb{R}^n,称为参数空间 (parameter space)。
      假设空间也可以定义为条件概率的集合:\mathcal{F}=\{P|P=P(Y|X)\}其中,XY是定义在输入空间 \mathcal{X} 和输出空间 \mathcal{Y} 上的随机变量。这时 \mathcal{F} 通常是由一个参数向量决定的条件概率分布族:\mathcal{F}= \{P|P_\theta(Y|X), \theta\in\mathbb{R}^n\}参数向量 \theta 取值于 n 维欧氏空间 \mathbb{R}^n,也称为参数空间 (parameter space)。

    3.2 策略

      有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。
      首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏

    3.2.1 损失函数和风险函数

      损失函数 (loss function) 或代价函数 (cost function) 度量的是预测值 f(X) 与真实值 Y 之间的错误程度,记作 L(Y,f(X))
      统计学习常用的损失函数有以下几种:
      (1) 0-1 损失函数L(Y,f(X))=\left\{\begin{align} & 1,\ Y\ne f(X) \\ & 0,\ Y=f(X) \\ \end{align} \right.  (2) 平方损失函数L(Y,f(X))=(Y-f(X))^2  (3) 绝对损失函数L(Y,f(X))=|Y-f(X)|  (4) 对数似然损失函数L(Y,P(Y|X))=-\log P(Y|X)  由于模型的输入、输出 (X,Y) 是随机变量,遵循联合分布 P(X,Y),所 以损失函数的期望是\begin{align} R_{\text{exp}}(f) = & \ E_P[L(Y,f(X))] \\ = & \int_{\mathcal{X}\times\mathcal{Y}} L(y,f(x))P(x,y)\mathrm{d}{x}\mathrm{d}{y}\\ \end{align}这是理论上模型 f(X) 关于联合分布 P(X,Y) 的平均意义下的损失,称为风险函数 (risk function)期望损失 (expected loss)
      学习的目标就是选择期望风险最小的模型。由于联合分布 P(X,Y) 是未知的,而另一方面根据期望损失最小的学习模型又要用到联合分布,所以监督学习就成为一个病态问题 (ill-foemed problem)。
      给定一个训练数据集T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}模型 f(X) 关于训练数据集的平均损失称为经验风险 (empirical risk)经验损失 (empirical loss),记作 R_{\text{emp}}R_{\text{emp}}(f) = \frac{1}{N}\sum\limits_{i=1}^n L(y_i,f(x_i))  根据大数定律,当样本容量 N 趋近于无穷的时候,经验风险趋近于期望风险。然而,现实中训练样本有限,甚至很小,要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略:经验风险最小化结构风险最小化

    3.2.2 经验风险最小化与结构风险最小化

      经验风险最小化 (empirical risk minimization, ERM) 的策略认为,经验风险最小的模型是最优的模型。根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题:\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,f(x_i))其中,\mathcal{F} 是假设空间。
      当样本容量足够大时,经验风险最小化能保证有很好的学习效果,在现实中广泛采用。但是,当样本容量很小时,经验风险最小化策略容易产生“过拟合”现象。
      结构风险最小化 (structural risk minimization, SRM) 是为了防止过拟合而产生的策略。结构分线最小化等价于正则化 (regularizaation)。结构风险在经验风险上表示模型复杂度的正则化项或罚项。结构风险的定义是:R_{\text{stm}}(f)=\frac{1}{N}\sum\limits_{i=1}^N L(y_i,f(x_i))+\lambda J(f)其中 J(f) 为模型复杂度,是定义在假设空间 \mathcal(F) 上的泛函。\lambda\geqslant 0 是系数,用于权衡经验风险和模型复杂度。结构风险小需要经验风险和模型复杂度同时小,这样往往对训练数据以及未知的测试数据都有较好的预测。
      结构风险最小化的策略认为结构风险最小的模型是最优的模型。按照结构风险最小化求最优模型就是求解最优化问题:\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,f(x_i))+\lambda J(f)其中,\mathcal{F} 是假设空间。
      这样,监督学习问题就变成了经验风险或结构风险函数的最优化问题,此时经验分析或结构风险函数是最优化的目标函数。

    3.3 算法

      算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。

    相关文章

      网友评论

          本文标题:Day2 第一章 统计学习及监督学习概论(1)

          本文链接:https://www.haomeiwen.com/subject/qhlrkdtx.html