利用词嵌入的短文本主题模型(论文阅读笔记)
李晨亮 于2016SIGIR
关键词:
主题模型、 短文本、 词嵌入
目标问题:
利用词嵌入来充实短文本的主题模型是本文的关键。
本文提出了简单、快速和有效的短文本主题模型——GPU-DMM。
GPU-DMM基于DMM模型,GPU-DMM模型使用GPU模型通过抽样过程提高在相同主题的语义相关词。
模型(GPU-DMM):
模型图解如下:
GPU-DMM overview.pngGPU-DMM模型扩展了DMM模型,其在主题推断过程中通过GPU模型结合从大语料中训练得到的词向量。
具体来说:
- Gibbs Sampling:在对短文本抽取一个主题后,GPU-DMM模型提高同一个主题的语义相关的词。即GPU-DMM模型把语义相关的词连接起来。
- Word Filtering:这个模型对语义相关的词进行过滤,只有适当的扩展知识才可以被抽取的主题利用。
模型贡献:
GPU-DMM使用word embeddings作为外部扩展知识,既快速又灵活。在英文搜索引擎的片段和中文问答系统的问题中,GPU-DMM发现更突出的主题,实现了更好的分类准确率。具体贡献如下:
- 开发了简单、快速和有效的短文本主题模型GPU-DMM。该模型通过GPU模型直接使用从大文本语料中训练得到的word embeddings。
- 通过和其他短文本主题模型对比评价该模型。发现该模型在主题一致性、文本分类准确率和学习速度方面有极大的优越性。
- 以经验方法研究两种文档表达推理模型的影响。结果表明,短文档的词分布的和更适合文本分类等任务应用。
模型详解:
对于一个给定的短文本,GPU-DMM模型首先基于条件概率(类似于DMM模型)抽取一个主题。然后选择和这个主题中最相关的词,接着利用GPU模型对这些词的语义相关词进行扩展。
DMM模型——一个生成概率模型
假设:一个文档由单个主题生成。即一个文档中的词由同样的主题分布生成。
D:短文本语料库;V:词汇表大小;K:预训练好的主题。每个d只有一个k。在d中的词N由k的分布生成。
DMM在生成过程中的隐含变量由吉布斯抽样估计。
Auxiliary Word Embedding
利用从大语料学习到的词嵌入能够极大的提高短文本的主题模型。
通过GPU模型利用词嵌入
基于于词共现的主题一致性是主题质量的可靠标准
-
GPU模型
:从一个主题中抽取一个词,不仅提高这个词的概率,同时也提高这个词语义相关词的概率。
本文通过余弦相似度来计算两个词向量之间的相似度。由此可以构建一个相似矩阵,用来保存词之间的相似度。这时使用一个阈值来过滤不是很相关的词对。
-
词过滤
:短文本中的某些词的相关词和这个短文本的主题不符。所以需要强制规定只有这个文档中的强语义相关的词才可以提高它的语义相关词的概率。
-
模型推理
:GPU-DMM和DMM有相同的衍生过程和图解表示,在主题推理过程不同。
-
模型复杂度
:GPU-DMM的时间复杂度为O(KDl+Dlt+KV)。
实验:
利用GPU-DMM模型,在两个不同语言的真实短文本数据集中进行实验,取得了很好的结果。在英文搜索引擎的片段和中文问答系统的数据库就主题连贯性和文本分类进行评测。
数据集
BaiduQA 爬取百度知道的648541条问题,每个问题都被提问者打上了标签。对数据集进行预处理:分词和去除停用词。我们去除了只包含一个词的问题。
Web Snippet 包括12340条网页搜索片段。这些片段总共包含8类。预处理如下:全部转化为小写;去除数字和停用词;去除小于3个词的文本;去除df小于3的词;去除一个文本中的重复的词。
实验步骤
Word Embeddings: 对于Snippet数据集,使用从Google News corpus预训练好的300维词向量;对于BaiduQA数据集,使用爬取的百度百科的700万数据集训练的100维词向量。如果一个词没有词向量,则认为没有词和该词相关。
人工实验决定词向量相似的阈值。最优的阈值依赖于外部语料和训练词向量的算法。
实验忽略相关词大于20的词。
关于词向量的准备和本文所述模型独立,可线下操作。
方法和参数设置:实验将与四个已有的主题模型进行比较,分别有BTM(Biterm Topic Model):直接在短文本中训练;SATM(Self-Aggregation based Topic Model):假设每个短文本从文档集合的长文本中抽取出来;DMM(Dirichlet Multinomial Mixture Model):假设每个文档仅仅有一个主题;LF-DMM(Latent Feature model with DMM):结合DMM和Word Embeddings。
本文就主题一致性和文本分类准确率来评价模型的性能。
主题一致性评价
短文本分类评价
基于主题分布的方法:
效率
Figure2.png Figure3.png Table3.jpg Table4.jpg Table5.jpg Figure4.png Table6.jpg1.摘要:
很多应用需要短文本的语义理解。传统的主题模型极大的依赖于文档集合中的词共现来生成主题。
但是短文本就词共现来说存在极大的稀疏性。数据稀疏性成为了提高短文本主题模型结果的瓶颈。
然而,人类理解短文本的时候,并不单单基于短文本的内容,还依靠其背景知识(语义相关的词)。而词嵌入很好的做到这一点。
2. 背景介绍
常见的短文本:网页片段、新闻提要、文本广告、tweets、状态更新和问答系统。
常见的用途:用户兴趣分析、话题检测、评论总结、文本特征提取和分类。
传统的主题模型技术:pLSA和LDA。
主题模型:每个文档被表示为一个关于主题的多项分布,每个主题被表示为一个词的多项分布。
统计技术(如吉布斯采样):基于高位词共现模式,应用于识别每个文档隐藏的主题分布,每个主题的词分布。
由于短文本的词共现限制,传统的主题模型技术出现极大的性能退化。(表现如下:数据稀疏阻碍产生有区别的文档主题分布,而且结果缺少语义连贯性)
用来解决短文本数据稀疏问题的策略:
- 把短文本集合成为一个伪长文档。缺点是有的文本没有课获得的元数据。
- 限制文档主题分布。如一个文档只有一个主题(一元混合模型和Dirichlet多元混合模型)。
- 通过利用外部词共现信息,设计一个新的主题模型。(问题:如果两个词有很强的语义相关性但是很少在短文本中共现,这个模型不能完全俘获两个词的语义相关性)
利用外部词汇知识来指导短文本的主题推断工作: - 依赖外部主题词表
- 来源于某个特定领域的文档的词汇知识
3. 相关工作
短文本的主题模型
- Phan通过已经从维基百科训练好的隐含主题来推测短文本的主题结构。
- Jin使用长文本的语义聚类来推测短文本的隐含主题。
- DMM模型的假设:每个文档只有一个隐含主题。Gibbs Sampling算法在DMM中表示在短文本聚类中非常有效。
- BTM模型:产生一些共现词而不是单个词。
- SATM模型:每个短文本是一个伪长文本的片段,所以共享相同的主题。但是比较耗时。
使用词嵌入的短文本主题模型
- LF-DMM:以DMM的二元混合代替多元分布。
- GPU-DMM:GPU模型明显减少了计算成本。
——血枫,2016/7/22于枫园一舍。初次发布文章,欢迎各种批评指点。
网友评论