潜在语义索引

潜在语义索引（Latent Semantic Indexing,以下简称LSI），也叫Latent Semantic Analysis ,简称LSA。本文中称为LSI。LSI是一种主题模型，他是利用SVD奇异值分解方法来获得文本的主题的。

LSI方法可以用作特征降维、文本相似度计算等。

优缺点：

（1）SVD是非常耗时的，主题模型非负矩阵分解（NMF）可以很好的解决该问题；

（2）主题值的选取对结果有较大的影响，很难选择适合的k值。层次狄利克雷过程（HDP）可以自动选择主题个数；

（3）LSI得到的不是一个概率模型，缺乏统计基础，结果难以解释。PLSA和LDA是基于概率分布的主题模型来代替基于矩阵分解的主题模型。

主成分分析

主成分分析（Principal Component Analysis，PCA），是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

在用统计分析方法研究多变量的课题时，变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量，将重复的变量（关系紧密的变量）删去多余，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上用来降维的一种方法。

计算流程如下：

（1）对样本生成特征向量矩阵

（2）先计算每一列特征的平均值，然后每一维度都需要减去该列的特征平均值

（3）计算特征的协方差矩阵（为什么是协方差矩阵呢？）

（4）针对协方差矩阵进行特征值和特征向量的计算

（5）对计算得到的特征值进行从大到小的排序

（6）取出前K个特征向量和特征值，并进行回退，即得到了降维后的特征矩阵

例子

设数据集为，表中x、y、z表示有3个特征词，一共10个样本。