潜在语义分析LSA:
是一种无监督学习,主要用于文本的话题分析。
特点:
通过矩阵分解发现文本与单词直接的基于话题的语义关系。
文本信息处理中,传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量表示文本直接的语义相似度。
潜在语义分析旨在解决这种方法不能准确表示语义的问题,试图从大连的文本数据中发现潜在话题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度。这也是话题分析的基本想法。
潜在语义分析使用的是非概率的话题分析模型。具体地,
将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解,从而得到话题向量空间,以及文本在话题向量空间的表示。
奇异值分解特点是分解的矩阵正交。
非负矩阵分解NMF是另一种矩阵的因子分解方法,其特点是分解的矩阵非负。也用于话题分析。
一、单词向量空间与话题向量空间
1、单词向量空间
文本信息处理,比如文本信息检索、文本数据挖掘的一个核心问题是对文本的语义内容进行表示,并进行文本之间的语义相似度计算。
最简单的方法是利用向量空间模型VSM,也就是单词向量空间模型。
向量空间模型基本想法:
image.png定义
image.png image.png- 直观上,一个单词在一个文本中出现的频数越高,这个单词在这个文本中的重要度就越高。
- 一个单词在整个文本集合中出现的文本数越少,这个单词就越能表示其所在文本的特点,重要度就越高。
- 一个单词在一个文本的TF-IDF是两种重要度的积,表示综合重要度。
直观上,在两个文本中共同出席的单词越多,其语义内容就越相近,对应的单词向量同不为零的维度就越多,内积就越大(单词向量元素的值都是非负的),表示两个文本在语义内容上越相似。
单词向量空间模型优点:
- 模型简单
- 计算效率高
局限性,内积相似度未必能够准确表达两个文本的语义相似度
- 一词多义性
- 多词一义性
2、话题向量空间
两个文本的语义相似度可以提醒在两者的话题相似度上。
一个文本一般含有若干个话题。如果两个文本的话题相似,那么两者的语义应该也相似。
话题可以由若干个语义相关的单词表示,同义词可以表示同一个话题,而多义词可以表示不同话题。这样基于话题的模型就可以解决上述基于单词模型存在的问题。
设想定义一种话题向量空间模型。给定一个文本,用话题空间的一个向量表示该文本,该向量的每一分量对应一个话题,其数值为该话题在该文本中出现的权值。
用两个向量的内积或标准化内积表示对应的两个文本的语义相似度。
注:单词向量空间模型与话题向量空间模型可以互为补充,现实中,两者可以同时使用。
(1)话题向量空间
定义:
image.png(2)文本在话题向量空间的表示
image.png(3)从单词向量空间到话题向量空间的线性变换
image.png二、潜在语义分析算法
潜在语义分析利用矩阵奇异值分解。
具体地,对单词-文本矩阵进行奇异值分解,将其左矩阵作为话题向量矩阵,将其对角矩阵与右矩阵的乘积作为文本在话题向量空间的表示。
1、矩阵奇异值分解算法
(1)单词-文本矩阵
image.png(2)截断奇异值分解
image.png(3)话题向量空间
image.png(4)文本的话题空间表示
image.png三、非负矩阵分解算法
非负矩阵分解也可以用于话题分析。
对单词-文本矩阵进行非负矩阵分解,将其左矩阵作为话题向量空间,将其右矩阵作为文本在话题向量空间的表示。
通常,单词-文本矩阵是非负的。
1、非负矩阵分解
image.png image.png2、潜在语义分析模型
image.png3、非负矩阵分解的形式化
非负矩阵分解可以形式化为最优化问题求解。
网友评论