信息抽取(information extraction)
- 是从自然语言文本中抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物。
开放信息抽取(open IE)
- 是指从纯文本中提取结构化关系三元组,例如(Mark Zuckerberg; founded; Facebook)。与其他信息提取的核心区别在于,这些关系的模式不需要事先指定; 通常,关系名称只是链接两个参数的文本。例如,Barack Obama was born in Hawaii 将会创建一个三元组 (Barack Obama; was born in; Hawaii), 对应于开放域的关系为 was-born-in(Barack-Obama, Hawaii)。
下面做一个信息抽取工具及相关资料的总结
一、Stanford CoreNLP
- 基本思想:Stanford CoreNLP提供了一套人类语言技术工具。
它可以给出单词的基本形式,它们的词性,它们是公司名称,人物等等,标准化日期,时间和数字量,用短语和句法依赖关系标记句子结构,指示其中名词短语指的是相同的实体,表示情感,提取实体提及之间的特定或开放式关系。 - 相关论文:The Stanford CoreNLP Natural Language Processing Toolkit
二、Stanford OpenIE
- 基本思想:利用语言结构进行开放域信息提取。
系统首先将每个句子分成一组必要条款。然后最大限度地缩短每个子句,产生一组较短的句子片段。然后将这些片段分段为OpenIE三元组,并由系统输出。 - 相关论文:A Survey on Open Information Extraction
- 注:斯坦福OpenIE是一部分斯坦福CoreNLP
三、Deepdive
- Deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统。它通过弱监督学习,从非结构化的文本中抽取结构化的关系数据 。
- 学习教程地址:http://deepdive.stanford.edu/quickstart
四、MinIE
五、ClausIE
六、ReVerb
- ReVerb是一个自动识别和提取英语句子中的二元关系的程序。ReVerb专为Web规模信息提取而设计。
- 代码地址:https://github.com/knowitall/reverb
七、Ollie
- Ollie是一种自动识别和提取英语句子中的二元关系的软件。Ollie专为信息提取而设计。
- 代码地址:https://github.com/knowitall/ollie
- 相关论文:Open Language Learning for Information Extraction
八、IEPY
- IEPY是一个 专注于关系提取的信息提取的开源工具 。
- 代码地址:http://github.com/machinalis/iepy
九、Stanford-OpenIE-Python
- Stanford Open Information Extraction - Python Wrapper
- 学习教程地址:https://github.com/philipperemy/Stanford-OpenIE-Python)
网友评论