美文网首页
统计学习方法摘要

统计学习方法摘要

作者: 努力的搬砖人 | 来源:发表于2021-01-15 21:36 被阅读0次

1. 统计学习

        统计学习的对象是数据,目的是对数据进行预测与分析,学习是由监督学习,非监督学习,半监督学习,和强化学习等组成。方法包括模型的假设空间,模型选择的准则以及模型学习的算法。

 2. 监督学习

         监督学习的任务就是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

        1. 输入空间,输出空间,特征空间: 输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题

        2. 联合概率分布: 训练数据与测试数据被看作是依联合概率分布p(X,Y) 独立同分布产生的

        3. 假设空间:是指输入空间到输出空格键的映射的集合

3. 三要素: 方法 = 模型 + 策略 + 算法   

            模型 = 非概率模型(决策函数表示的模型) + 概率模型(条件概率表示的模型)

            策略 : 损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏

                        损失函数是f(X)和Y的非负实值函数

       监督学习问题变成了 经验风险或者结构风险函数的最优化问题

      算法是指学习模型的具体计算方法

4. 模型的评估与模型选择    

    当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差是学习评估的标准

    模型选择是为了避免过拟合,提高模型的预测能力,通常由正则化和交叉验证的两种方式

    正则化:结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。一般是模型复杂度的单调递增函数,模型越负责,正则化值就越大;正则化符合奥卡迪姆剃刀定律-在所有可能选择的模型中,能够很好的解释已知数据并且十分简单才是最好的模型。

   交叉验证:重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此技术唱烦哭的进行训练,测试以及模型选择。 具体分为; 简单交叉验证,F-fold交叉验证,留一交叉验证

   泛化能力:是指该方法学习到的模型对未知数据的预测能力

5.生成模型与判别模型

    生成方法是由数据学习联合概率分布P(X,Y),然后求出条件概率P(Y|X)作为预测的模型,极为生成模型, 模型表示了给定输入X产生输出Y的生成关系。典型的生成模型由:朴素贝叶斯法和隐马尔可夫模型

    判别方法是由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型,核心为给定输入X,应该预测什么样的输出Y. 典型的判别模型包括:K近邻,感知机,决策树,逻辑回归,最大熵模型,支持向量机,条件随机场等

    生成方法可以还原联合概率分布P(X,Y),学习的收敛速度更快,当样本容量增加时,学到的模型可以更快的收敛于真实模型;当存在隐变量时,仍可用生成方法学习。判别方法是直接学习的条件概率或者决策函数,直接面对预测,学习的准确率更高,可以对数据进行各种程度的抽象,定义特征并使用特征,简化学习问题。

        

相关文章

网友评论

      本文标题:统计学习方法摘要

      本文链接:https://www.haomeiwen.com/subject/hbpcfqtx.html