美文网首页
开坑-统计学习方法概论

开坑-统计学习方法概论

作者: 天然猪肉丸 | 来源:发表于2017-12-17 20:37 被阅读0次

    1.3 统计学习三要素

    方法=模型+策略+算法

    1. 模型
    2. 策略
    3. 算法

    模型

    所要学习的条件概率分布或决策函数

    策略

    损失函数和风险函数

    -0-1损失函数
    -平方损失函数 (Y-f(x))^2
    -绝对损失函数 |Y-f(x)|
    -对数损失函数 -logP(Y|X)

    经验风险最小化和结构风险最小化

    经验风险最小化(empirical risk minimization,ERM),样本足够大时有很好的学习效果
    例如,极大似然估计,模型是条件概率分布,损失函数是对数损失函数时等价于极大似然估计
    结构风险最小化(structural risk minimization,SRM)防止过拟合提出的策略,等价于正则化(regularization),例如贝叶斯估计中的最大后验概率估计

    算法

    统计学习问题归结为最优化问题,如何保障寻找到全局最优解?


    1.4 模型评估

    training error本质上不重要,test error反映学习方法对未知的测试数据集的预测能力


    1.5 正则化与交叉验证

    正则化复合奥卡姆剃刀原理
    -简单交叉验证 70% training set, 30% test set
    -S折交叉验证 S-fold cross validation
    -留一交叉验证 leave-one-out


    1.6 泛化能力

    泛化误差上界是假设空间容量的函数,假设空间容量越大,模型就越难学


    image.png

    1.7 生成模型与判别模型

    监督学习方法分为生成方法和判别方法
    生成方法给定输入X产生输出Y的生成关系,朴素贝叶斯和隐马尔科夫模型,求P(Y|X);还原出联合概率分布,收敛速度更快,同时存在隐变量时,仍可以用生成方法学习,而判别方法不行
    判别方法由数据直接学习决策函数,关心的是对给定的X,应该输入做怎样的Y;学习准确率更高,可以对数据进行各种程度上的抽象,定义特征并使用特征,可以简化学习问题。


    1.8 分类问题

    accuracy
    二分类的评价指标,精确率(precision)和召回率(recall)
    TP-将正类预测为正类数
    FN-将正类预测为负类数
    FP-将负类预测为正类数
    TN-将负类预测为负类数
    precision P = TP / (TP+FP)
    recall R = TP / (TP+FN)
    F1为precision和recall的调和均值,鸡
    F1 = 2TP / (2TP+FP+FN)


    1.9 标注问题

    标注问题是分类问题的一个推广,也是更复杂的结构预测问题的简单形式,即对一个观测序列找到使条件概率最大的标记序列。
    分为学习和标注两个过程,常用的统计学习方法有:隐马尔科夫,条件随机场


    1.10 回归问题

    表示输入变量到输出变量之间的映射

    相关文章

      网友评论

          本文标题:开坑-统计学习方法概论

          本文链接:https://www.haomeiwen.com/subject/cuyuwxtx.html