美文网首页自然语言处理
信息抽取(IE)工具总结

信息抽取(IE)工具总结

作者: px1012 | 来源:发表于2019-04-17 12:48 被阅读0次
信息抽取(information extraction)
  • 是从自然语言文本中抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物。
开放信息抽取(open IE)
  • 是指从纯文本中提取结构化关系三元组,例如(Mark Zuckerberg; founded; Facebook)。与其他信息提取的核心区别在于,这些关系的模式不需要事先指定; 通常,关系名称只是链接两个参数的文本。例如,Barack Obama was born in Hawaii 将会创建一个三元组 (Barack Obama; was born in; Hawaii), 对应于开放域的关系为 was-born-in(Barack-Obama, Hawaii)。
下面做一个信息抽取工具及相关资料的总结
一、Stanford CoreNLP
  • 基本思想:Stanford CoreNLP提供了一套人类语言技术工具。
    它可以给出单词的基本形式,它们的词性,它们是公司名称,人物等等,标准化日期,时间和数字量,用短语和句法依赖关系标记句子结构,指示其中名词短语指的是相同的实体,表示情感,提取实体提及之间的特定或开放式关系。
  • 相关论文:The Stanford CoreNLP Natural Language Processing Toolkit
二、Stanford OpenIE
  • 基本思想:利用语言结构进行开放域信息提取。
    系统首先将每个句子分成一组必要条款。然后最大限度地缩短每个子句,产生一组较短的句子片段。然后将这些片段分段为OpenIE三元组,并由系统输出。
  • 相关论文:A Survey on Open Information Extraction
  • 注:斯坦福OpenIE是一部分斯坦福CoreNLP
三、Deepdive
  • Deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统。它通过弱监督学习,从非结构化的文本中抽取结构化的关系数据 。
  • 学习教程地址:http://deepdive.stanford.edu/quickstart
四、MinIE
五、ClausIE
六、ReVerb
  • ReVerb是一个自动识别和提取英语句子中的二元关系的程序。ReVerb专为Web规模信息提取而设计。
  • 代码地址:https://github.com/knowitall/reverb
七、Ollie
八、IEPY
九、Stanford-OpenIE-Python
以上是目前收集到的信息抽取工具的整理,后续有新的会继续补充

相关文章

  • 信息抽取(IE)工具总结

    信息抽取(information extraction) 是从自然语言文本中抽取出特定的事件或事实信息,帮助我们将...

  • Leveraging Linguistic Structure

    摘要(Abstract)   通过开放领域信息抽取系统提取的关系元组对于自动问答,推理以及其他信息抽取(IE)任务...

  • Python之JsonPath解析json数据

    一、JsonPath介绍: 首先,JsonPath 是一种信息抽取类库,是从JSON文档中抽取指定信息的工具,提供...

  • 信息抽取

    1.Open Information Extraction 2.https://github.com/twjian...

  • 信息抽取

    最近关注一些长文本信息抽取的东西,现在简单做一个小结。 信息抽取主要包括三类 实体识别 关系抽取 事件提取。 一个...

  • 信息抽取

    什么是信息抽取? 信息抽取是指在预定的表格栏目里填写内容,内容从文本中自动摘录 传统的自然语言理解旨在模拟人的语言...

  • 知识图谱学习笔记(五)——实体识别(1)

    实体识别(信息抽取) 1. 信息抽取概述 信息抽取定义:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,...

  • 教你把IE浏览器设置为默认浏览器

    工具: 电脑 IE浏览器 教程: 打开IE浏览器找到下面的设置 打开这个设置 然后按图片上的内容设置 总结: ...

  • 自制MVP基类框架依赖库和工具类(自用)

    抽取 除了mvp层的抽取,还有对Activity、Adapter、Fragment的抽取 工具类 验证码工具类:C...

  • 2019达观杯信息抽取比赛总结

    本文主要记录下自己这两个月参加比赛的过程和经验 赛题描述 达观信息抽取比赛提供了一个脱敏数据集,训练集有17000...

网友评论

    本文标题:信息抽取(IE)工具总结

    本文链接:https://www.haomeiwen.com/subject/cmgpiqtx.html