1)对于某个文档进行分句
2)对于每个分句使用Word2Vec等工具进行向量化(Word Embedding),
3)将句子中的每个词或词组的Word Embedding直接累加,从而获得句子的Word Embedding表示;
4)把每个句子的WordEmbedding直接累加获得整个文档的Word Embedding。
如图1所示,这样文档和句子都以Word Embedding的低维度向量来表示,这个向量分别代表了文档和句子的语义信息。
图1.根据句子word Embedding获得文档Word Embedding*摘要句子抽取过程,其基本思路是非常简单的:哪些句子在语义上与文档整体语义更相似,那么就选哪些句子作为摘要句。
具体实现流程如图2所示。就是直接用每个句子的语义向量和文档整体语义向量来通过Cosine距离计算两者之间的距离,分值越大,说明这个句子在语义上越和文档整体语义越匹配,那么就越有代表性。当每个句子都算出和文档整体语义的语义相似性得分后,根据得分由高到低排序,并按需要输出一定数量的句子作为文档的摘要。
图2. 摘要计算流程参考:https://blog.csdn.net/malefactor/article/details/51264244
网友评论