1 K-means 与 EM 的联系
给定 维空间中一个包含 个点的数据集 , 以及期望其聚成 簇:, 我们可以定义每个簇的中心点为
其中 表示簇 的点的个数。这样,K-means 算法的目标函数 (平方差和) 为:
1.1 EM 算法的基本原理和步骤
假设每一个簇 都由一个多元正态分布刻画,即
其中,簇均值 及协方差矩阵 均是未知参数。 是 属性属于簇 的概率密度。令 表示对应 的第 维度的随机变量,记 代表对应于 个维度的随机向量。假设 的概率密度函数是在所有 个簇之上的高斯混合模型,定义为
其中先验概率 , 满足
我们将簇 的参数简记作
则 的似然为
则 MLE (极大似然估计) 为
由贝叶斯公式可知
由于每个簇都建模为一个多元正态分布,故而
因而, 可以看作是点 在簇 中的权值或贡献。
- 初始化:, 对于每一个簇 , 均值 使用均匀分布随机地初始化 且 , .
- E 步:计算 , 且记 表示簇 在所有 个点上的权向量。
- M 步:重新估计 , 即
- 不断地依次重复操作 步和 步,直到
.
网友评论