潜在语义分析（LSA）

作者: 单调不减 | 来源:发表于2019-06-20 13:40 被阅读0次

潜在语义分析（Latent Semantic Analysis,LSA）是一种无监督学习方法，主要用于分本的话题分析，其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。

1、单词向量空间

文本信息处理的一个核心问题是对文本的语义内容进行表示，并进行文本之间的语义相似度计算。最简单的方法是利用向量空间模型（Vector Space Model,VSM）。向量空间模型的基本想法是，给定一个文本，用一个向量表示该文本的“语义”，向量的每一维对应一个单词，其数值为该单词在该文本中出现的频数或权值。这里的基本假设是文本中所有单词的出现情况表示了文本的语义内容。向量空间的度量，如内积或标准化内积表示文本之间的“语义相似度”。

严格定义如下：给出一个含有 $n$ 个文本的集合 $D=\{d_1,d_2,\dots,d_n\}$ 以及在所有文本中出现的 $m$ 个单词的集合 $W=\{w_1,w_2,\dots,w_m\}$ 。将单词在文本中出现的数据用一个单词-文本矩阵表示，记作 $X$ ：

$X=\begin{bmatrix} x_{11} & x_{12} & \dots & x_{1n}\\ x_{21} & x_{22} & \dots & x_{2n}\\ \dots & \dots & \dots & \dots\\ x_{m1} & x_{m2} & \dots & x_{mn}\\ \end{bmatrix} \qquad$

$x_{ij}$ 表示单词 $w_i$ 在文本 $d_j$ 中出现的频数或权值。这是一个稀疏矩阵。

权值常用单词频率-逆文本频率（term frequency-inverse document frequency,TF-IDF）表示，其定义是：

$TFIDF_{ij}=\frac{ tf_{ij}}{tf_{.j}}\log\frac{df}{df_i}$

其中 $tf_{ij}$ 是单词 $w_i$ 出现在文本 $d_j$ 中的频数， $tf_{.j}$ 是文本 $d_j$ 中出现的所有单词的频数之和， $df_i$ 是含有单词 $w_i$ 的文本数， $df$ 是文本集合 $D$ 的全部文本数。

这个概念的解释我在读吴军先生的《数学之美》时见过，至今记忆犹新。举例来说，很多单词在所有文本中出现频率都很高（比如I，is，are，and）但它们并不能代表文本的语义，因为这些单词在所有文本中都出现，因此它们并不能代表文本的特点。这就是不能直接使用单词频率的原因。为了度量一个单词能多大程度地反映文本的特点，可以使用逆文本频率，即一个单词在整个文本集合中出现的文本越少，这个单词越能表示其所在文本的特点，重要度越高。这就是逆文本频率的含义。综合逆文本频率（度量单词多大程度反映文本特点）以及单词频率（度量单词对文本的重要性）就得到了TF-IDF。

两个单词向量的内积或标准化内积（余弦）表示对应文本之间的语义相似度，文本 $d_i$ 与 $d_j$ 之间的相似度为：

$\frac{x_i\cdot x_j}{||x_i||\ ||x_j||}$

VSM的优点是模型简单，计算效率高，因此单词向量通常是稀疏的，两个向量的内积计算只需要在同不为零的维度上进行即可。但VSM也有一定局限性，那就是有时内积相似度未必能准确表达两个文本的语义相似度，因为单词具有一词多义性（polysemy）和多词一义性（synonymy），所以基于单词向量的相似度计算存在不精确的问题。

2、话题向量空间

所谓话题（topic），并没有严格定义，就是指文本讨论的内容和主题。一个文本一般含有若干话题。

单词-文本矩阵定义同上，记为 $X=[x_1\quad x_2\quad \dots\quad x_n]$ 。

另外我们定义单词-话题矩阵，记作 $T$ ：

$T= \begin{bmatrix} t_{11} & t_{12} & \dots & t_{1k}\\ t_{21} & t_{22} & \dots & t_{2k}\\ \dots & \dots & \dots & \dots\\ t_{m1} & t_{m2} & \dots & t_{mk}\\ \end{bmatrix} \qquad$

矩阵 $T$ 也可以写作 $T=[t_1\quad t_2\dots\quad t_k]$ （ $k$ 为所有文本的话题数）。

其中 $t_{il}$ 表示单词 $w_i$ 在话题 $t_l$ 的权值， $i=1,2,\dots,m$ ，权值越大，该单词在该话题中重要度越高。这 $k$ 个话题向量 $t_1,t_2\dots,t_k$ 张成一个话题向量空间，维数为 $k$ 。

接下来我们定义话题-文本矩阵：

$Y= \begin{bmatrix} y_{11} & y_{12} & \dots & y_{1n}\\ y_{21} & y_{22} & \dots & y_{2n}\\ \dots & \dots & \dots & \dots\\ y_{k1} & y_{k2} & \dots & y_{kn}\\ \end{bmatrix} \qquad$