美文网首页
实体关系抽取

实体关系抽取

作者: 潇萧之炎 | 来源:发表于2019-08-20 00:41 被阅读0次

    实体识别的难点,不好建模,比如投资关系:

    1.方向:投资方和被投方
    2.关系多维,错综复杂:投资方有多个,被投资只有一个。一对多,多对一,多对多
    3.俩个实体有多个关系:某两个人 既是同学,又是夫妻
    4.标注问题
    难点在于不好建模,多对多的问题通过穷举法来建模,比如100个单词有10个关系,那么其中一个单词与其他99个单词,有这10个关系中的一种。

    联合模型的优势:

    一个实体有头和尾两个单词,那只用尾来预测,头用实体识别来补充。
    先实体识别、再抽取关系
    预测出头之后,再根据之前的命名实体识别,把后面的进行补充
    获取用一个实体的尾巴去预测另一个实体的尾巴

    数据处理

    B-loc 开始
    I-loc 中间的和结束
    o other 代表不是实体
    ['N']代表没有关系
    比如:LI Taylor Swift
    LI B-loc ['N']
    Taylor I-loc ['N']
    Swift I-loc ['出生于','工作于'] [7,8]
    用一个实体的尾巴去预测另一个实体的尾巴
    而不需要
    LI B-loc ['出生于','工作于'] [7,8]
    Taylor I-loc ['出生于','工作于'] [7,8]
    Swift I-loc ['出生于','工作于'] [7,8]
    这样就是多对多,把情况变复杂了
    adv虚拟对抗模式adversarial
    BIO 或者BIOES
    这个标注没有几个G,10万条数据就可以了。

    半监督学习:

    把有监督学习和无监督学习结合起来了。
    模型是两层的双向lstm。无监督体现在 用它来训练一个分类器,训练一个语言模型,训练完了之后,再放到有监督的文本分类器模型中。
    语言模型都是不需要标签的,根据上一个字来预测下一个字

    相关文章

      网友评论

          本文标题:实体关系抽取

          本文链接:https://www.haomeiwen.com/subject/wdgysctx.html