美文网首页
Embedding+抽取式摘要

Embedding+抽取式摘要

作者: 小太阳may | 来源:发表于2018-11-12 20:36 被阅读0次

1)对于某个文档进行分句

2)对于每个分句使用Word2Vec等工具进行向量化(Word Embedding),

3)将句子中的每个词或词组的Word Embedding直接累加,从而获得句子的Word Embedding表示;

4)把每个句子的WordEmbedding直接累加获得整个文档的Word Embedding。

如图1所示,这样文档和句子都以Word Embedding的低维度向量来表示,这个向量分别代表了文档和句子的语义信息。

图1.根据句子word Embedding获得文档Word Embedding

*摘要句子抽取过程,其基本思路是非常简单的:哪些句子在语义上与文档整体语义更相似,那么就选哪些句子作为摘要句。

具体实现流程如图2所示。就是直接用每个句子的语义向量和文档整体语义向量来通过Cosine距离计算两者之间的距离,分值越大,说明这个句子在语义上越和文档整体语义越匹配,那么就越有代表性。当每个句子都算出和文档整体语义的语义相似性得分后,根据得分由高到低排序,并按需要输出一定数量的句子作为文档的摘要。

图2. 摘要计算流程

参考:https://blog.csdn.net/malefactor/article/details/51264244

相关文章

  • Embedding+抽取式摘要

    1)对于某个文档进行分句 2)对于每个分句使用Word2Vec等工具进行向量化(Word Embedding), ...

  • 抽取式摘要生成

    方法 摘要生成算法主要分为抽取型(Extraction-based)和概括型(生成)(Abstraction-ba...

  • 文本抽取式摘要

    关键词:抽取式,BM25算法,行业知识后处理。 背景 笔者所在的公司原来已经有一个自动摘要的模块,我只是在原来的基...

  • Note - 中文分句

    起因: 直接清洗后的新闻文档(str)用jieba分词 觉得不妥,不便于做抽取式摘要(抽取关键句子) 做中文分句还...

  • CAN:点击率预估中特征交互作用02

    摘要 摘要核心 网络结构的非线性抽取特征是一种隐式特征表征 当前的ctr模型无法完全捕获特征的相互组合 作者提出一...

  • IEEE Access | 一种抽取式文档摘要的层级式自注意力模

    该论文采用层级式自注意力模型实现抽取式文档摘要,相比以前模型,训练中融入了先前句子向量的动态参数,并在CNN/Da...

  • 自动摘要抽取模型

    决策树算法实现自动摘要 决策树其实可以分为分类树和回归树两类,分类树是指输出每个样本的类别,而回归树则是值输出数值...

  • 方法范文查询

    构建IS领域知识图谱从摘要中抽取出方法

  • Leveraging Linguistic Structure

    摘要(Abstract)   通过开放领域信息抽取系统提取的关系元组对于自动问答,推理以及其他信息抽取(IE)任务...

  • A Neural Attention Model for Sen

    Abstract 通过文本抽取的方式生成摘要已经陷入瓶颈。 通过抽象语句的含义来生成摘要是一个很有潜力的方向。 本...

网友评论

      本文标题:Embedding+抽取式摘要

      本文链接:https://www.haomeiwen.com/subject/siqhfqtx.html