美文网首页
李航统计学习--第一章统计方法概论

李航统计学习--第一章统计方法概论

作者: HELLOTREE1 | 来源:发表于2018-06-11 22:10 被阅读0次

    1.根据输入输出变量的不同类型,对预测任务进行不同的命名:

    1)input,output均为连续变量--------回归问题--函数拟合

            最常用的损失函数是:平方损失---最小二乘法求解回归问题

            例子:为市场趋势预测、产品质量管理、客户满意度调查,投资风险分析的工具

                股票价格预测

    2)output是有限个离散变量(输入可以离散可以连续)-------分类问题

            分类准确率

            对于二分类;指标:精确率precision和召回率recall

            TP正预测为正(正确的prediction);FN正预测为负(错误的N);FP负预测为正(错误           的prediction);TN负预测为负(正确的N)

    精确率:正确的prediction/所有的被预测为正。召回率:正确的预测/所有的正预测 P R都高时候,F1也高

            分类算法:K临近,感知机,朴素贝叶斯,决策树,逻辑斯蒂回归,支持向量机,提升方           法,贝叶斯网络,神经网络,Winnow

            例子:银行中对客户按照贷款风险大小进行分类,构建客户分类模型;文本分类

    3)input,output均为变量序列------标注问题tagging--分类问题的推广--结构预测问题的简单形式

            输入:观测序列;输出:标记序列或者状态序列

            统计方法 :隐马尔可夫模型,条件随机场

            在信息提取、自然语言处理等领域广泛应用

    2.统计学习方法=模型+策略+算法

    model:监督学习中模型就是要学习的条件概率或决策函数

    strategy:如何选择最佳模型:

            1)损失函数和风险函数

    I)0-1损失函数 II)平方损失函数 III)绝对损失函数 IV)对数损失函数

            期望风险Rexp(f)是模型关于联合分布的期望损失,经验风险Remp是模型关于训练样本集的平均损失。

            根据大数定理,样本量N~无穷,经验风险趋近于期望风险,但是往往训练样本有限。so需要对经验风险进行校正。

    期望风险 经验风险

            2)对经验风险进行校正-----经验风险最小化和结构风险最小化

    N足够大时候,经验风险最小化能保证有很好的学习效果,求解最优化模型,如最大似然估计。当模型是条件概率分布时,损失函数是对数损失函数,经验风险最小化等价于极大似然估计。N比较小时候,会产生过拟合 结构风险最小化,是为了防止过拟合。等价于正则化,是在经验风险加上表示模型复杂度的正则化项或罚项。模型越复杂系数越大。如贝叶斯估计中的最大后验概率估计。当模型是条件概率分布,损失函数是对数损失函数,模型复杂度是模型的先验概率,结构风险最小化等价于最大后验概率估计。

    algorithm:用什么样的计算方法求解最优化模型

    3. 训练误差:判断给定的问题是不是容易学习;测试误差:学习方法对位置数据的预测能力(泛化能力)

    过拟合:学习时选择的模型所包含的参数过多,该模型对已知数据预测的很好,对未知数据预测很差

    如何选择模型?--正则化和交叉验证

    正则化:--结构风险最小化策略的实现

    交叉验证:若样本数据足够,将其分为:训练集,验证集和测试集

        简单交叉验证:数据随机分为两部分:训练与测试

        S折交叉验证:随机将数据切分为S个互不相关的大小相同的子集,S-1个子集训练,剩余数       据测试

        留一交叉验证:S=N,在数据缺乏的情况下用

    生成模型与判别模型:

    生成模型:数据学习联合概率分布,求出条件概率分布作为预测模型(可还原联合概率分布,学习收敛速度更快)

        朴素贝叶斯和隐马尔科夫模型

    判别模型:直接学习决策函数f(X)或者条件概率分布P(Y/X)作为预测模型(学习的准确率更高)

        k临近,感知机,决策树,逻辑斯蒂回归,最大熵模型,支持向量机,提升方法和条件随机场等

    4.常用的机器学习算法比较? - 知乎

    机器学习包含哪些学习思想? - 知乎


    相关文章

      网友评论

          本文标题:李航统计学习--第一章统计方法概论

          本文链接:https://www.haomeiwen.com/subject/mpsheftx.html