5.7 监督学习算法
1. 概率监督学习:
大部分监督学习算法都是基于估计概率分布 的,也就是说得出的结果都不是100%确定的,只是大概率认为而已。
分类:输出变量为有限个离散变量的预测问题
回归:输入变量与输出变量均为连续变量的预测问题
关于逻辑回归:
逻辑回归( logistic regression):参考 https://blog.csdn.net/weixin_39445556/article/details/83930186
逻辑回归不是回归,logistic不是逻辑的意思,只是一个音译而已,贼坑
逻辑回归就是用回归的办法来做分类比如说是否会得病,用回归的方法预测0(不得病)或1(得病)
2. 支持向量机( support vector machine, SVM)
类似于逻辑回归,这个模型也是基于线性函数 的
支持向量机不输出概率,只输出类别
核技巧:核技巧观察到许多机器学习算法都可以写成样本之间点积的形式
是训练样本, 是系数向量 ,两个向量点积
核函数:
用这个代替上面的点积
最终预测函数:
这样就能把非线性的换成线性的
核技巧的好处:
使我们能够使用保证有效收敛的凸优化技术来学习非线性模型(关于 x 的函数)
核函数 k 的实现方法通常有比直接构建 ϕ(x) 再算点积高效很多
高斯核( Gaussian kernel)
公式: 为标准正态密度
作用:执行模板匹配 (template matching):
当测试点 x′ 到 x 的欧几里得距离很小,对应的高斯核响应很大时,表明 x′ 和模版 x 非常相似。该模型进而会赋予相对应的训练标签 y 较大的权重(也就是分类当测试点到模板距离很小时,则认为应该分类到某一类别)
支持向量:
判断新样本的类别仅需要计算非零 αi 对应的训练样本的核函数
3. k-近邻
k-最近邻算法没有任何参数
4. 决策树
决策树是另一类将输入空间分成不同的区域,每个区域有独立参数的算法
5.8 无监督学习
无监督算法只处理 “特征’’,不操作监督信号
无监督学习常见的三种表示:
低维表示:尝试将 x 中的信息尽可能压缩在一个较小的表示中
稀疏表示:将数据集嵌入到输入项大多数为零的表示中
独立表示:试图分开数据分布中变化的来源,使得表示的维度是统计独立的
1. 主成分分析:
提供了一种压缩数据的方式
PCA 学习一种比原始输入维数更低的表示
一种元素之间彼此没有线性相关的表示要(实现完全独立性,表示学习算法也必须去掉变量间的非线性关系)
2. k-均值聚类
k-均值聚类算法将训练集分成 k个靠近彼此的不同样本聚类
网友评论