生成式模型和判别式模型

生成式模型
一般我们对每一个类建立一个模型，有多少个类别，我们就建立多少个模型。比方说类别标签有｛猫，狗，猪｝，那首先根据猫的特征学习出一个猫的模型，再根据狗的特征学习出狗的模型，之后分别计算新测试样本x和三个类别的联合概率P(x,y)，然后根据贝叶斯公式 P(y|x) = P(x,y)/P(x)分别计算P(y|x)，选择三类中最大的P(y|x)作为样本的分类。
常见的生成式模型有隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等。

判别式模型
我们根据训练数据得到分类函数和分界面，比如说根据SVM模型得到了一个分界面，然后直接计算条件概率 P(x,y)，我们将最大的P(x,y)作为新样本的分类。判别式模型不能反映训练数据本身的特性，能力有限，其只能告诉我们分类的类别。
常见的判别式模型有线性回归、决策树、支持向量机SVM、k近邻、神经网络等。
总结
生成式模型关注数据是如何产生的，寻找的是数据分布模型；判别式模型关注的数据的差异性，寻找的是分类面

均值移动算法（Mean Shift）

核心思想：沿着密度上升的方向，寻找聚簇点
设想在一个有N个样本点的特征空间，初始确定一个中心点center，计算在设置的半径为D的圆形空间内所有的点（xi）与中心点center的向量计算整个圆形空间内所有向量的平均值，得到一个偏移均值，将中心点center移动到偏移均值位置重复移动，直到满足一定条件结束。

偏移量计算

这里Sh是以x为中心点，半径为h的高维球区域，k是包含在球区域内的点数，xi为在球内的点
将中心点移动到偏移均值位置

Mt为t状态下求得的偏移值，xt为t状态下的中心。

进阶
引入核函数的偏移均值
核函数只是用来计算映射到高维空间之后的内积的一种简便方法，目的为让低维的不可分数据变成高维可分。利用核函数，可以忽略映射关系，直接在低维空间中完成计算。
在均值漂移中引入核函数的概念，能够使计算中距离中心的点具有更大的权值，反映距离越短，权值越大的特性。改进的偏移均值：

其中，x为中心点；xi为带宽范围内的点；n为带宽范围内的点的数量；g(x)为对核函数的导数求负

模型评估指标

AUC（Are Under Curve）
随机抽出一对样本（一个正样本，一个负样本），然后用训练得到的分类器来对这两个样本进行预测，预测得到正样本的概率大于负样本概率的概率。

举例来说

ID	label	pro
A	0	0.1
B	0	0.4
C	1	0.35
D	1	0.8

假设有4条样本。2个正样本，2个负样本，那么M*N=4。即总共有4个样本对。分别是：
（D,B）,（D,A）,(C,B),（C,A）。
在（D,B）样本对中，正样本D预测的概率大于负样本B预测的概率（也就是D的得分比B高），记为1
同理，对于（C,B）。正样本C预测的概率小于负样本B预测的概率，记为0。
最后可以算得，总共有3个符合正样本得分高于负样本得分，故最后的AUC为