美文网首页
统计学习方法入门

统计学习方法入门

作者: pokorz | 来源:发表于2017-08-07 23:09 被阅读0次

    统计学习

    “学习”的定义:“如果一个系统能通过执行某个过程改进它的性能,这就是学习”。
    现如今的机器学习一般就是统计机器学习。
    统计学习的对象:data

    1. 提取特征
    2. 抽象模型
    3. 进行分析和预测

    统计学习的目标:

    1. 学习什么样的模型
    2. 如何学习模型

    统计学习方法类型:

    1. supervised learning
    2. unsupervised learning
    3. semi-supervised learning
    4. reforcement learning
    5. more...

    统计学习的步骤

    1. 得到一个有限的训练数据集合, training data
    2. 确定所有学习模型的集合,model
    3. 确定模型选择的准则,strategy
    4. 实现求解最优模型的算法,algorithm
    5. 通过学习方法选择最优方法
    6. 利用最优模型对新数据进行预测分析

    监督学习

    过程: 输入 ----------> 特征向量 ------>特征空间 ----->输出空间

    输入变量X,输出变量Y:

    • 回归问题:输入输出均为连续变量的预测问题
    • 分类问题:输入输出均为有限个离散变量的预测问题
    • 标注问题:输入输出均为变量序列的预测问题

    统计学习三要素

    • 模型
      统计学习首要考虑的问题。
      在监督学习中,模型就是所要学习的条件概率分布或决策函数。

    • 策略

      • 损失函数
        • 定义:用来度量输出的预测值f(X)与真实值Y之间不一致(错误)的程度。
        • 常见损失函数:0-1损失函数,平方损失函数
          记作L(f(X),Y)
        • 意义:损失函数数值越小,模型就越好。
        • 期望风险:Rexp(f)
      • 风险函数
        • 经验风险
          定义:模型关于训练数据集的平均损失。
          Remp(f) : sum(L(yi,f(xi)))/N,当N趋于无限大式,经验风险趋于期望风险。
          经验风险最小化容易导致过拟合现象
        • 结构风险
          意义:防止过拟合
          定义: 在经验风险的基础上加上表示模型复杂度的正则化项或罚项
          Rsrm(f) : sum(L(yi,f(xi)))/N + lambda(J(f))
    • 算法
      经过策略,问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
      挑战:如果保证找到全局最优解,并使求解的过程非常高效。

    相关文章

      网友评论

          本文标题:统计学习方法入门

          本文链接:https://www.haomeiwen.com/subject/pkjzlxtx.html