美文网首页
统计学习方法——修炼学习笔记17:潜在语义分析

统计学习方法——修炼学习笔记17:潜在语义分析

作者: Sam_L | 来源:发表于2020-04-15 20:02 被阅读0次

    潜在语义分析LSA:
    是一种无监督学习,主要用于文本的话题分析。
    特点:
    通过矩阵分解发现文本与单词直接的基于话题的语义关系。

    文本信息处理中,传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量表示文本直接的语义相似度。
    潜在语义分析旨在解决这种方法不能准确表示语义的问题,试图从大连的文本数据中发现潜在话题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度。这也是话题分析的基本想法

    潜在语义分析使用的是非概率的话题分析模型。具体地,
    将文本集合表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解,从而得到话题向量空间,以及文本在话题向量空间的表示。

    奇异值分解特点是分解的矩阵正交。
    非负矩阵分解NMF是另一种矩阵的因子分解方法,其特点是分解的矩阵非负。也用于话题分析。

    一、单词向量空间与话题向量空间

    1、单词向量空间

    文本信息处理,比如文本信息检索、文本数据挖掘的一个核心问题是对文本的语义内容进行表示,并进行文本之间的语义相似度计算。
    最简单的方法是利用向量空间模型VSM,也就是单词向量空间模型。

    向量空间模型基本想法:
    image.png
    定义
    image.png image.png
    • 直观上,一个单词在一个文本中出现的频数越高,这个单词在这个文本中的重要度就越高。
    • 一个单词在整个文本集合中出现的文本数越少,这个单词就越能表示其所在文本的特点,重要度就越高。
    • 一个单词在一个文本的TF-IDF是两种重要度的积,表示综合重要度。
    image.png image.png

    直观上,在两个文本中共同出席的单词越多,其语义内容就越相近,对应的单词向量同不为零的维度就越多,内积就越大(单词向量元素的值都是非负的),表示两个文本在语义内容上越相似。

    单词向量空间模型优点:
    • 模型简单
    • 计算效率高
    局限性,内积相似度未必能够准确表达两个文本的语义相似度
    • 一词多义性
    • 多词一义性

    2、话题向量空间

    两个文本的语义相似度可以提醒在两者的话题相似度上。
    一个文本一般含有若干个话题。如果两个文本的话题相似,那么两者的语义应该也相似。

    话题可以由若干个语义相关的单词表示,同义词可以表示同一个话题,而多义词可以表示不同话题。这样基于话题的模型就可以解决上述基于单词模型存在的问题。

    设想定义一种话题向量空间模型。给定一个文本,用话题空间的一个向量表示该文本,该向量的每一分量对应一个话题,其数值为该话题在该文本中出现的权值。
    用两个向量的内积或标准化内积表示对应的两个文本的语义相似度。

    注:单词向量空间模型与话题向量空间模型可以互为补充,现实中,两者可以同时使用。

    (1)话题向量空间
    定义:
    image.png
    (2)文本在话题向量空间的表示
    image.png
    (3)从单词向量空间到话题向量空间的线性变换
    image.png

    二、潜在语义分析算法

    潜在语义分析利用矩阵奇异值分解。
    具体地,对单词-文本矩阵进行奇异值分解,将其左矩阵作为话题向量矩阵,将其对角矩阵与右矩阵的乘积作为文本在话题向量空间的表示。

    1、矩阵奇异值分解算法

    (1)单词-文本矩阵
    image.png
    (2)截断奇异值分解
    image.png
    (3)话题向量空间
    image.png
    (4)文本的话题空间表示
    image.png

    三、非负矩阵分解算法

    非负矩阵分解也可以用于话题分析。
    对单词-文本矩阵进行非负矩阵分解,将其左矩阵作为话题向量空间,将其右矩阵作为文本在话题向量空间的表示。
    通常,单词-文本矩阵是非负的。

    1、非负矩阵分解

    image.png image.png

    2、潜在语义分析模型

    image.png

    3、非负矩阵分解的形式化

    非负矩阵分解可以形式化为最优化问题求解。

    首先定义损失函数或代价函数。
    第一种 损失函数是平方损失。
    image.png
    第二种损失函数是散度
    image.png
    定义最优化问题
    image.png

    4、算法

    定理
    image.png
    非负矩阵分解的算法,第一个问题(17.22)的算法,第二个问题(17.23)算法类似
    image.png
    非负矩阵分解的迭代算法
    image.png

    相关文章

      网友评论

          本文标题:统计学习方法——修炼学习笔记17:潜在语义分析

          本文链接:https://www.haomeiwen.com/subject/zvjhvhtx.html