sklearn中半监督学习的相关部分

作者: 曦宝 | 来源:发表于2018-09-06 10:16 被阅读55次

sklearn中半监督学习的相关部分
sklearn半监督学习
Introduction of Machine Learning
ml chapter1机器学习的分类
统计学习方法概论
scikit-learn--Nearest Neighbors(
sklearn 学习：普通机器学习模型利器
sklearn-半监督学习-标签传播算法
Machine Learning
无监督学习

from sklearn.semi_supervised import LabelPropagation, LabelSpreading

英文

https://scikit-learn.org/stable/modules/label_propagation.html

中文

http://sklearn.apachecn.org/#/docs/15?id=_114-%e5%8d%8a%e7%9b%91%e7%9d%a3%e5%ad%a6%e4%b9%a0

1、生成式方法

生成式方法是直接基于生成式模型的方法。此类方法假设所有数据（无论是否有标记）都是由同一个潜在的模型“生成”的。这个假设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来，而未标记数据的标记则可以看作模型的缺失参数，通常可基于EM算法进行极大似然估计求解。此类方法的区别主要在于生成式模型的假设，不同的模型假设将产生不同的方法。

此类方法简单，易于实现，在有标记数据极少的情况下，往往比其他方法性能更好。然而此类方法有一个问题，就是模型假设必须准确，即假设的生成式模型必须与真实数据分布吻合；否则利用未标记数据反倒会降低泛化性能。

2、半监督SVM

半监督支持向量机（semi-supervised support vector machine，简称S3VM）是支持向量机在半监督学习上的推广。

半监督支持向量机中最著名的是TSVM（Transductive Support Vector Machine）.TSVM试图考虑对未标记样本进行各种可能的标记指派（label assignment）即尝试将每个未标记样本分别作为正例和反例，然后在所有这些结果中，寻求一个在所有样本（包括有标记样本和进行了标记指派的未标记样本）上间隔最大化的划分超平面。一旦划分超平面得以确定，未标记样本的最终标记指派就是其预测结果。