生成模型与判别模型
监督学习的任务就是学习一个模型,这个 模型一般是决策函数:或者条件概率分布:
分类
监督学习的方法分为两类:
- 生成方法
- 判别方法
生成方法
生成方法由数据学习联合概率分布,然后求出条件概率分布作为预测模型,生成模型为:
- 典型算法:朴素贝叶斯法和隐马尔可夫模型
- 特点:
- 更够还原出联合概率分布
- 样本容量多时,学习收敛速度快,能够更快地收敛于真实模型
判别方法
判别方法由数据直接学习决策函数或者条件概率分布作为预测的模型。判别方法关心的是给定输入X,应该预测出什么样的Y值。
- 典型算法:k近邻法、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、条件随机场等
- 特点:
- 直接学习条件概率或者决策函数,学习的准确率更高
- 能够对数据进行各种程度上的抽象,定义特征和使用特征,简化学习问题
监督学习应用
分类问题
在监督学习中,输出变量Y取有限个离散值,预测问题变成了分类问题。输入变量X离散或者连续均可。分类问题有学习和分类两个过程:
- 学习:根据已知的训练数据集利用学习方法学习一个分类器
- 分类:利用学习过程中得到的分类器,对新的输入实例进行分类
评价指标
评价分类问题的指标是分类准确率accuracy
。定义:给定的预测数据集,分类器正确分类的样本数/总样本数,也是损失函数是0-1损失时候测试机数据上的准确率:
对于二分类问题常用的评价指标是:精准率precision
和召回率recall
。根据实际结果和预测结果的正负性,有4种情况:
第一个字母表示预测的正确或者错误;第二个字母表示预测出来的结果
- TP:将正类预测为正类
- FN:将正类预测为负类
- FP:将负类预测为正类
- TN:将负类预测为负类
1:表示预测为正例;0:表示预测为负例
分类 | 真实值 | 预测值 |
---|---|---|
TP | 1 | 1 |
FN | 1 | 0 |
FP | 0 | 1 |
TN | 0 | 0 |
精准率定义为:预测为正例的数据里预测正确的个数召回率定义为:真实为正例的那些数据里预测正确的数据个数
值是精准率和召回率的调和平均值,定义为
关于精准率和召回率以及混淆矩阵的知识点,参考:
https://www.cnblogs.com/liweiwei1419/p/9870034.html
https://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/
具体应用
- 银行业务:构建客户分类模型,对客户按照贷款风险的大小进行分类
- 网络安全:可以利用日志数据的分类对非法入侵进行检测
- 手写识别:用于识别手写的数字
- 互联网搜索:网页的分类可以帮助网页的抓取、索引和排序
标注问题
标注tagging
问题输入的是一个观测序列,输出的是一个标记序列或状态序列。标注问题分为学习和标注两个过程。应用领域
- 信息抽取
- 自然语言处理NLP,词性标注问题
常用标注问题的统计学习方法:
- 隐马尔可夫模型
- 条件随机场
回归问题
特点
回归问题是监督学习的另一个重要问题。回归用于预测输入变量和输出变量之间的关系。
- 回归的模型正是输入和输出变量之间映射的函数。
- 回归函数的学习等价于函数拟合
- 回归问题分为学习和预测
基本过程:从训练数据集构建一个模型,即函数,然后对新的输入根据学习到的模型确定相应的输出
损失函数:回归问题中常用的损失函数是平方损失函数
,通过最小二乘法
求解
应用
- 商务领域:市场预测、产品质量管理
- 股价预测:
网友评论