生成式模型和判别式模型
- 生成式模型
一般我们对每一个类建立一个模型,有多少个类别,我们就建立多少个模型。比方说类别标签有{猫,狗,猪},那首先根据猫的特征学习出一个猫的模型,再根据狗的特征学习出狗的模型,之后分别计算新测试样本x和三个类别的联合概率P(x,y),然后根据贝叶斯公式 P(y|x) = P(x,y)/P(x)分别计算P(y|x),选择三类中最大的P(y|x)作为样本的分类。
常见的生成式模型有隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等。
- 判别式模型
我们根据训练数据得到分类函数和分界面,比如说根据SVM模型得到了一个分界面,然后直接计算条件概率 P(x,y),我们将最大的P(x,y)作为新样本的分类。判别式模型不能反映训练数据本身的特性,能力有限,其只能告诉我们分类的类别。
常见的判别式模型有线性回归、决策树、支持向量机SVM、k近邻、神经网络等。 - 总结
生成式模型关注数据是如何产生的,寻找的是数据分布模型;判别式模型关注的数据的差异性,寻找的是分类面
均值移动算法(Mean Shift)

核心思想:沿着密度上升的方向,寻找聚簇点
设想在一个有N个样本点的特征空间,初始确定一个中心点center,计算在设置的半径为D的圆形空间内所有的点(xi)与中心点center的向量计算整个圆形空间内所有向量的平均值,得到一个偏移均值,将中心点center移动到偏移均值位置重复移动,直到满足一定条件结束。

偏移量计算

这里Sh是以x为中心点,半径为h的高维球区域,k是包含在球区域内的点数,xi为在球内的点
将中心点移动到偏移均值位置

Mt为t状态下求得的偏移值,xt为t状态下的中心。
进阶
引入核函数的偏移均值
核函数只是用来计算映射到高维空间之后的内积的一种简便方法,目的为让低维的不可分数据变成高维可分。利用核函数,可以忽略映射关系,直接在低维空间中完成计算。
在均值漂移中引入核函数的概念,能够使计算中距离中心的点具有更大的权值,反映距离越短,权值越大的特性。改进的偏移均值:

其中,x为中心点;xi为带宽范围内的点;n为带宽范围内的点的数量;g(x)为对核函数的导数求负
模型评估指标
-
AUC(Are Under Curve)
随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进行预测,预测得到正样本的概率大于负样本概率的概率。
举例来说
ID | label | pro |
---|---|---|
A | 0 | 0.1 |
B | 0 | 0.4 |
C | 1 | 0.35 |
D | 1 | 0.8 |
假设有4条样本。2个正样本,2个负样本,那么M*N=4。即总共有4个样本对。分别是:
(D,B),(D,A),(C,B),(C,A)。
在(D,B)样本对中,正样本D预测的概率大于负样本B预测的概率(也就是D的得分比B高),记为1
同理,对于(C,B)。正样本C预测的概率小于负样本B预测的概率,记为0。
最后可以算得,总共有3个符合正样本得分高于负样本得分,故最后的AUC为

Recall Precission F1
网友评论