美文网首页
Embedding+抽取式摘要

Embedding+抽取式摘要

作者: 小太阳may | 来源:发表于2018-11-12 20:36 被阅读0次

    1)对于某个文档进行分句

    2)对于每个分句使用Word2Vec等工具进行向量化(Word Embedding),

    3)将句子中的每个词或词组的Word Embedding直接累加,从而获得句子的Word Embedding表示;

    4)把每个句子的WordEmbedding直接累加获得整个文档的Word Embedding。

    如图1所示,这样文档和句子都以Word Embedding的低维度向量来表示,这个向量分别代表了文档和句子的语义信息。

    图1.根据句子word Embedding获得文档Word Embedding

    *摘要句子抽取过程,其基本思路是非常简单的:哪些句子在语义上与文档整体语义更相似,那么就选哪些句子作为摘要句。

    具体实现流程如图2所示。就是直接用每个句子的语义向量和文档整体语义向量来通过Cosine距离计算两者之间的距离,分值越大,说明这个句子在语义上越和文档整体语义越匹配,那么就越有代表性。当每个句子都算出和文档整体语义的语义相似性得分后,根据得分由高到低排序,并按需要输出一定数量的句子作为文档的摘要。

    图2. 摘要计算流程

    参考:https://blog.csdn.net/malefactor/article/details/51264244

    相关文章

      网友评论

          本文标题:Embedding+抽取式摘要

          本文链接:https://www.haomeiwen.com/subject/siqhfqtx.html