美文网首页NLP
LSI(LSA)和gensim中的实现

LSI(LSA)和gensim中的实现

作者: 华小锐 | 来源:发表于2019-07-10 11:22 被阅读0次

LSI原理

通过SVD将文档与词的TF-IDF的矩阵进行分解。SVD分解后的三个矩阵是文档与主题,主题与词义,词义与词三个矩阵,通过三个矩阵的不同解释,可以实现在降低维度的基础上有意义的解释。

文档与主题矩阵可以实现文档相似度的计算。词义与词的矩阵可以实现词相似度的计算,同时可以表示一意多词的情况。

gensim中LSI的使用

代码实现了bow形式表示语料->将bow中的次数转变成TF-IDF值->使用LSI方法对TF-IDF文档和词组成的矩阵进行分解。最后利用余弦相似度,根据文档和主题矩阵可以实现文档之间相似度的计算。依据就是主题类似的文档的相似度高。

texts = [['human', 'interface', 'computer','human'],

['survey', 'user', 'computer', 'system', 'response', 'time'],

['eps', 'user', 'interface', 'system'],

['system', 'human', 'system', 'eps'],

['user', 'response', 'time'],

['trees'],

['graph', 'trees'],

['graph', 'minors', 'trees'],

['graph', 'minors', 'survey']]

from gensim import corpora

#统计所有独有的词

dictionary = corpora.Dictionary(texts)

print(dictionary)

#把语料变成每个词对应的ID和出现的次数

corpus = [dictionary.doc2bow(text) for text in texts]

print (corpus) # [(0, 1), (1, 1), (2, 1)]

from gensim import models

tfidf = models.TfidfModel(corpus)

doc_bow = [(0, 1), (1, 1)]

print (tfidf[doc_bow]) # [(0, 0.70710678), (1, 0.70710678)]

#TF-IDF也是一种数据表示文本的方式

tfidf.save("./model.tfidf")

tfidf = models.TfidfModel.load("./model.tfidf")

# 构造LSI模型并将待检索的query和文本转化为LSI主题向量

# 转换之前的corpus和query均是BOW向量

query = [(0, 1), (1, 1), (2, 1)]

#这个模型可以把语料中的稀疏的变量编程一个密集的向量,使用一个密集的向量可以表示这个句子

lsi_model = models.LsiModel(corpus, id2word=dictionary, num_topics=2)

documents = lsi_model[corpus]

print(documents[0])

query_vec = lsi_model[query]

from gensim.similarities import MatrixSimilarity

index = MatrixSimilarity(documents)

index.save('/tmp/deerwester.index')

index = MatrixSimilarity.load('/tmp/deerwester.index')

#检查了与所有语料中的余弦相似度

sims = index[query_vec] # return: an iterator of tuple (idx, sim)

print(sims)

相关文章

  • LSI(LSA)和gensim中的实现

    LSI原理 通过SVD将文档与词的TF-IDF的矩阵进行分解。SVD分解后的三个矩阵是文档与主题,主题与词义,词义...

  • LDA模型伪代码块

    Gensim的基本用法 Gensim非常适合用来实现各种文本模型、主题模型,包括tf-idf模型、LSI模型以及L...

  • LSA基本功能的复现

    潜在语义分析LSA(Latent Semantic Analysis )也叫作潜在语义索引LSI( Latent ...

  • [Gensim] 1 Word Embedding之bag of

    Gensim是一个Python的自然语言处理库,能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模...

  • LSA/LSI/LDA——关键词提取

    主题模型认为在词与文档之间没有直接的联系,它们应当还有一个维度将它们联系起来,主题模型将这个维度称为主题。每个文档...

  • 机器学习

    LSA sklearn包里就能很好实现LSA降维并返回矩阵,先用TfIdfVectorizer构造文本矩阵,然后用...

  • OSPF 4/5类LSA(6)

    内容概要: 1、4类LSA内容解析 2、5类LSA内容解析 3、5类LSA中FA地址的作用 一、4类LSA内容分析...

  • OSPF 的 LSA 类型汇总 OSPFv2

    ospfv2的LSA类型:Router LSA 1Network LSA 2Network summary LSA...

  • OSPF拓扑描述及路由计算(4)

    内容概要: 1、1类LSA内容分析 2、1类LSA中的4种类型link 3、2类LSA内容分析 4、DR及虚节点作...

  • 机器学习算法之主题模型(LFM LSI PLSI LD

    LFM(MF分解技术)、LSI(SVD分解)、PLSI(EM)、LDA 隐语义模型LFM和LSI,PLSI,LDA...

网友评论

    本文标题:LSI(LSA)和gensim中的实现

    本文链接:https://www.haomeiwen.com/subject/bxhckctx.html