美文网首页
2 关系提取技术

2 关系提取技术

作者: 空无_ae80 | 来源:发表于2020-08-12 08:27 被阅读0次

关系抽取需要从文本中抽取两个或多个实体之间的语义关系,主要方法有下面几类:

基于模板的方法(hand-written patterns)

基于触发词/字符串

基于依存句法

监督学习(supervised machine learning)

机器学习

深度学习(Pipeline vs Joint Model)

半监督/无监督学习(semi-supervised and unsupervised)

Bootstrapping

Distant supervision

Unsupervised learning from the web

规则抽取

目的:找出尽可能多的拥有"is - a"关系的实体对(实体1,is - a,实体2) 比如我们有一些文章:

" .... apple is a fruit ..... "

" .... fruit such as apple .... "

" .... fruit including apple , banala .... "

拿到上述文章时,我们要先设计一些规则,例如:

X is a Y

Y such as X

Y including X

然后通过这些规则我们可以对上述文章进行关系抽取,建立以下关系:

方法优点

比较准确

对于垂直场景,比较适合(具有针对性)

方法缺点

信息缺乏覆盖率(low recall rate)

人力成本较高

很难设计(规则冲突、重叠)

PCNN

下图清晰了显示了PCNN的整个网络架构,原文链接在这里,下面我对着下图介绍一下PCNN的实现过程:

数据预处理:首先对数据进行位置编码,按句子中各个词离entity的距离进行编码。

例如:“As we known,Steve Jobswas the co-founder ofApple Incwhich is a great company in America.”

由于句子中有两个entity,所以这条句子就会产生两个和句子长度相同的编码。

pos_1:[-4,-3,-2,-1,0,1,2,3......] ,其中0就是Steve Jobs的位置。

pos_2:[-9,-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3......] 其中0就是Apple Inc的位置。

切分句子:其中最主要的就是将一条文本数据在两个entity处各切一刀将文本且成了3段

比如 As we known,Steve Jobswas the co-founder ofApple Incwhich is a great company in America,将被切成:

As we known,Steve Jobs

Steve Jobswas the co-founder ofApple Inc

Apple Incwhich is a great company in America.

注意,位置向量也同样进行了切分操作。

特征提取:将位置特征和文本特征拼接之后,然后将上面三个数据分别通过CNN 提取特征,

关系分类:提取出来的特征通过maxpooling层之后进行拼接后送入softmax层,最终得到relation的分类。

pcnn.png

从上面PCNN的流程我们可以发现,这个网络结构很注重entitiy之间的距离信息,位置信息,以及entitiy之间或者左右的信息。其实这些都是是关系抽取中最重要的特征。

一般来说两个entitiy之间距离越近,则他们有关系的可能性越大。

而透露出entities之间有关系的词一般会出现在两个entity之间,左侧,或者右侧。

例如:Steve Jobswas the co-founder ofApple Inc, 关系词 co-founder就在两个entity之间

相关文章

  • 2 关系提取技术

    关系抽取需要从文本中抽取两个或多个实体之间的语义关系,主要方法有下面几类: 基于模板的方法(hand-writte...

  • 《Flutter技术入门与实战》高清PDF下载

    《Flutter技术入门与实战》高清PDF下载 地址1:网盘下载----------> 提取码:klka 地址2:...

  • 论文整理(3)主题模型

    主题提取技术从是否需要监督角度考虑可以分为基于监督的主题提取和基于非监督的主题提取:从提取的内容角度,认为分为粗粒...

  • Linux文本处理

    技术点: 1.正则提取 sed 用提取变量替换sed 's/.*toid\=\([0-9]*\).*/\1/g' ...

  • 1 实体提取技术

    命名实体识别(Named EntitiesRecognition,NER)是自然语言处理的一个基础任务。其...

  • HGBC 项目进展周报(08.17)

    技术进展 1、完成迅雷链发行碱基(HGBC Token)合约 2、达尔文星球上线提取碱基到链克口袋功能 3、上线达...

  • 总RNA提取质粒提取核酸提取技术服务

    徕创生物服务简介 核酸包括DNA、RNA两种分子,在细胞中都是以与蛋白质结合的状态存在。核酸提取是分子生物学实验技...

  • 关系提取总结-1

    信息抽取是NLP领域的一个经典任务了,如何从不同来源的自然语言文本中提取真实可用的“知识”,并保证这些“知识”通常...

  • 提取文件名和目录名

    1、提取文件名 2、提取不带后缀的文件名 3、提取目录

  • 正则表达式提取固定字符之间的字符串

    1、提取style标签之间 2、提取script标签之间 3、提取p标签的行内样式

网友评论

      本文标题:2 关系提取技术

      本文链接:https://www.haomeiwen.com/subject/abrydktx.html