美文网首页机器学习_Python算法
《统计学习方法》-第一章(3)

《统计学习方法》-第一章(3)

作者: 皮皮大 | 来源:发表于2019-08-11 15:11 被阅读7次

生成模型与判别模型

监督学习的任务就是学习一个模型,这个 模型一般是决策函数:Y=f(X)或者条件概率分布:P(Y|X)

分类

监督学习的方法分为两类:

  • 生成方法
  • 判别方法

生成方法

生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,生成模型为:P(Y|X)=\frac{P(X,Y)}{P(X)}

  • 典型算法:朴素贝叶斯法和隐马尔可夫模型
  • 特点:
    • 更够还原出联合概率分布P(X,Y)
    • 样本容量多时,学习收敛速度快,能够更快地收敛于真实模型

判别方法

判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型。判别方法关心的是给定输入X,应该预测出什么样的Y值。

  • 典型算法:k近邻法、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、条件随机场等
  • 特点:
    • 直接学习条件概率或者决策函数,学习的准确率更高
    • 能够对数据进行各种程度上的抽象,定义特征和使用特征,简化学习问题

监督学习应用

分类问题

在监督学习中,输出变量Y取有限个离散值,预测问题变成了分类问题。输入变量X离散或者连续均可。分类问题有学习和分类两个过程:

  • 学习:根据已知的训练数据集利用学习方法学习一个分类器
  • 分类:利用学习过程中得到的分类器,对新的输入实例进行分类
评价指标

评价分类问题的指标是分类准确率accuracy。定义:给定的预测数据集,分类器正确分类的样本数/总样本数,也是损失函数是0-1损失时候测试机数据上的准确率:
r_{test}=\frac{1}{N'}\sum_{i=1}^{N'}I(y_i={\hat f(x_i)})

对于二分类问题常用的评价指标是:精准率precision和召回率recall。根据实际结果和预测结果的正负性,有4种情况:
第一个字母表示预测的正确或者错误;第二个字母表示预测出来的结果

  • TP:将正类预测为正类
  • FN:将正类预测为负类
  • FP:将负类预测为正类
  • TN:将负类预测为负类

1:表示预测为正例;0:表示预测为负例

分类 真实值 预测值
TP 1 1
FN 1 0
FP 0 1
TN 0 0

精准率定义为:预测为正例的数据里预测正确的个数P=\frac{TP}{TP+FP}召回率定义为:真实为正例的那些数据里预测正确的数据个数R=\frac{TP}{TP+FN}

F_1值是精准率和召回率的调和平均值,定义为\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}=\frac{2TP}{2TP+FP+FN}

关于精准率和召回率以及混淆矩阵的知识点,参考:

https://www.cnblogs.com/liweiwei1419/p/9870034.html

https://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/

image.png
具体应用
  • 银行业务:构建客户分类模型,对客户按照贷款风险的大小进行分类
  • 网络安全:可以利用日志数据的分类对非法入侵进行检测
  • 手写识别:用于识别手写的数字
  • 互联网搜索:网页的分类可以帮助网页的抓取、索引和排序

标注问题

标注tagging问题输入的是一个观测序列,输出的是一个标记序列或状态序列。标注问题分为学习和标注两个过程。应用领域

  • 信息抽取
  • 自然语言处理NLP,词性标注问题

常用标注问题的统计学习方法:

  • 隐马尔可夫模型
  • 条件随机场

回归问题

特点

回归问题是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系。

  • 回归的模型正是输入和输出变量之间映射的函数。
  • 回归函数的学习等价于函数拟合
  • 回归问题分为学习和预测

基本过程:从训练数据集构建一个模型,即函数Y=f(X),然后对新的输入x_{N+1}根据学习到的模型Y=f(X)确定相应的输出y_{N+1}
损失函数:回归问题中常用的损失函数是平方损失函数,通过最小二乘法求解

应用
  • 商务领域:市场预测、产品质量管理
  • 股价预测:

相关文章

  • 2018-11-25 统计学习方法-李航 第一章

    第一章 统计学习方法概论 1.1 统计学习 实现统计学习方法的步骤如下: 1)得到一个有限的训练数据集合 2)确定...

  • 《统计学习方法概论》思维导图

    〇、说明 这个是根据李航博士《统计学习方法》[1]的第一章《统计学习方法概论》整理的思维导图。 之前看这一章时对机...

  • 《统计学习方法》读书笔记(一)

    第一章 统计学习方法概论 一、统计学习 1.1.统计学习的特点 (1)统计学习以计算机与网络为平台,建立在它们...

  • 机器学习笔记

    以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...

  • 《统计学习方法》-第一章(3)

    生成模型与判别模型 监督学习的任务就是学习一个模型,这个 模型一般是决策函数:或者条件概率分布: 分类 监督学习的...

  • 李航-第1章统计学习方法概论

    统计学习方法的三要素:模型、策略和算法。即:统计学习方法 = 模型 + 策略 +算法 基本概念 监督学习统计学习包...

  • 2017年待读书单

    1、《集体编程智慧》python 2、《统计学习方法》python 3、《宽容》房龙 4、《智能时代》Hawkin...

  • 《统计学习方法》读书笔记

    本文总结了《统计学习方法》(李航)中的一些机器学习方法,组织目录如下: 【第1章】 统计学习方法概论【第2章】 感...

  • 统计学习方法笔记(第一章个人笔记)

    统计学习方法笔记(第一章个人笔记) 标签:机器学习深度学习 P15 泛化能力 1.6.1 泛化误差定义如果学到的模...

  • 从程序员的角度说统计学习方法概论

    应该说这是在看完《统计学习方法》这本书后有的想法,也算是读书笔记。《统计学习方法》是李航写的,重点偏向于基于统计的...

网友评论

    本文标题:《统计学习方法》-第一章(3)

    本文链接:https://www.haomeiwen.com/subject/kmcsjctx.html