美文网首页
关系抽取实现方案

关系抽取实现方案

作者: 一心一意弄算法 | 来源:发表于2020-02-25 16:18 被阅读0次

    基于规则集,rule-base:

    XX 是 XX
    XX 类似于 XX
    XX 成立于 XX年 XX月
    规则集合可以设置一些限制, 比如实体的类型。

    1. 优点:
      • 不需要训练数据。
      • 比较准确。
    2. 缺点:
      • low recall 低召回。
      • 人力成本。
      • 规则本身难设计,容易冲突

    基于模型

    分类:
    - 定义好关系类型
    - 定义好实体类型
    - 训练数据准备:实体(类型)标记,实体间的关系(人工成本)
    (XX,YY) relation

    特征工程
    构造两个实体的特征。

    1. bag of word featrue:
      • 词特征。1-gram,2-gram,3-gram。实体前后词。
      • 两个实体中间的词。
    2. pos feature: 词性特征
    3. 实体类别:实体标签
    4. 位置信息:
      • 比如 两个实体间包含了多个个字
      • 这句话在文中的位置(第几句)
    5. 依存句法分析/句法分析:
      • 两个实体间的最短路径(图算法)
      • 是否相互依赖(0,1)

    特征相关性分析:协方差,皮尔森系数

    模型训练方式

    1. 方案1:
      • K类别+无关系:共K+1的分类模型。
    2. 方案2:
      • 二分类模型+K分类模型。
        优点:二分类相对简单,训练数据不大,并且大部分实体是不存在关系的,提升效率。

    相关文章

      网友评论

          本文标题:关系抽取实现方案

          本文链接:https://www.haomeiwen.com/subject/cyfcqhtx.html