美文网首页
1. 统计学习方法概论

1. 统计学习方法概论

作者: 楼桑村小秀才 | 来源:发表于2018-08-15 17:02 被阅读0次

    统计学习方法

    定义
    如果一个系统能够通过执行某个过程改进它的性能, 这就是学习

    对象
    数据(data), 从数据出发, 提取数据的特征, 抽象出数据的模型, 发现数据中的知识, 最终回到对数据的分析与预测中去.

    前提
    具有某种共同性质的数据, 其具有一定的统计规律性

    分类
    监督学习, 非监督学习, 半监督学习, 强化学习

    基本概念

    输入空间: 输入所有可能的取值集合
    输出空间: 输出所有可能的取值集合
    特征空间: 每个具体的输入是一个实例, 通常由特征向量表示. 所有特征向量存在的空间

    监督学习产生的最终模型可以是概率模型或非概率模型
    概率模型由条件概率分布P(Y|X)表示
    非概率模型由决策函数Y=f(X)表示

    常用损失函数

    1. 0-1损失函数L(Y,f(X))=1(Y\neq f(X)), 0 (Y=f(X))
    2. 平方损失函数L(Y,f(X))=(Y-f(X))^2
    3. 绝对损失函数L(Y,f(X))=|Y-f(X)|
    4. 对数损失函数L(Y,P(Y|X))=-logP(Y|X)

    对数损失函数用于概率模型中

    损失函数值越小, 模型就越好. 模型输入输出(X,Y)都是随机变量, 遵循联合分布P(X,Y)
    损失函数的期望:
    R_{exp}(f)=E[L(Y,f(X))]=\int_{(x,y)}L(Y,f(x))P(x,y)dxdy
    或者\sum_{x=1}\sum_{y=1}\Big(L(y,f(x))*P(x,y)\Big)
    以上损失也称为期望损失, 记为R_{exp}

    给定一个训练数据集, 模型f(X)关于训练数据集的平均损失称为经验损失, 记为R_{emp}

    期望风险是模型关于联合分布的期望损失, 经验风险是模型关于训练样本集的平均损失.
    当样本容量N趋于无穷时, 经验风险趋于期望风险.

    监督学习的基本策略

    经验风险最小化ERM

    经验风险最小的模型就是最优模型, 经验风险最小化求最优模型就是求解最优化问题
    当样本容量小时, 容易产生过拟合现象

    结构风险最小化SRM

    正则化. 在经验风险上加上表示模型复杂度的正则化项.
    R_{srm}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)
    J(f)表示模型的复杂度, 模型f越复杂, J(f)就越大; f越简单, J(f)就越小. 复杂度表示了对复杂模型的惩罚. \lambda\geq0是系数, 用以权衡经验风险和模型复杂度.

    过拟合

    当模型的复杂度增大时, 训练误差会逐渐减小并趋于0; 而测试误差会先减小, 达到最小值后又增大.
    当选择的模型复杂度过大时, 过拟合现象就会发生.

    正则化

    正则化等价于结构风险最小化策略的实现, 在经验风险上加一个正则化项或罚项.
    正则化项一般是模型复杂度的单调递增函数

    交叉验证
    1. 简单交叉验证

    随机的将数据分为两部分, 训练集和测试集. 用训练集在各种条件下训练模型, 在测试集上评估各个模型的测试误差

    1. S折交叉验证

    随机的将数据集切分为S个互不相交的大小相同的子集, 其中的S-1个子集作为训练集, 余下的作为测试集; 将这一过程对可能的S种选择重复进行.

    1. 留一交叉验证

    S折的特殊情况, 取S=N(数据集的容量)

    相关文章

      网友评论

          本文标题:1. 统计学习方法概论

          本文链接:https://www.haomeiwen.com/subject/qxbwbftx.html