摘要
- 开放式关系提取(ORE)通过从非结构化文本中发现任意的关系三元组来获得语义表示仍然是一个挑战。
- 由于数据的限制,依赖手工和语法分析器通过模式匹配的监督/半监督方式抽取方式低效、错误多。
1. 介绍
- TRE : 看作是分类任务,确定两个论点之间的预定义关系分类,未定义的无法找到。像总统选举,奥运会竞争无法满足需求
- ORE : 不依赖于预定义本体,从文本中抽取语义表示。ORE不依赖人为关系特定的需求,可以发现任意的关系
- ORE任务还远未解决:
Open relation extraction (ORE) remains a challenge to obtain a semantic representation by discovering arbitrary relation tuples from the un-structured text.
- By the lack of labeled training data at scale or inefficient extraction models. Most proposed methods are based on pattern matching to carry out unsupervised or weak-supervised learning
- Overly-specific , their constituents contain specific modifiers or even complete clauses
- 多义关系,同义关系
- 监督系统中的挑战
2. 开放关系抽取技术
- 基于模式
- Pattern Generalization 浅层句法分析重塑为词性标记和分块。解析器的过度依赖,虽然能够取得很好的结果,但是有很多解析错误,甚至造成级联的错误
- Iterative Extraction 手工,半监督的bootstrapping方式:给定随机种子集合,从文档中抽取包含种子特定实体的句子,然后去文档中匹配直到收敛
- 面向语义
1.将开放关系短语规范化为领域本体。作为序列标注问题,HMM,MEMM,CRF,LSTM..
- 基于神经网络
1.在TRE已经广泛使用了,现在ORE也跟着使用。对于ORE来说,产生监督系统是一个挑战。
3. OPEN IE SYSTEM and NLP END APPLICATIONS
- 常见的IE system,一代、二代都只注重动词。为了缓和这个缺陷,三代加入了跟多的词性类型。后面的发展考虑了上下文词汇的信息。
- NLP终端任务
4. RESOURCES AND ANALYSIS
-
A. RESOURCES
- A general challenge in ORE is to constrained by the lack of training data for supervised models、常见IE的train/dev/test sets
-
B. EVALUATION METRICS
- 还没有通用的估计准则
-
C. RESULT ANALYSIS AND DISCUSSION
- 总体性能的分析,通过约束提高精确度相对高,但是召回率低。
- we aim to identify all is-a relations, no matter whether the relations are expressed explicitly or implicitly in one or multiple sentences . This problem becomes severe when less focused and dynamic domains are considered。
5. OUR RECOMMENDATION
- Ensemble Representations and Deep Architecture (整体表示与深层建筑)
- Benchmarks and Evaluation Benchmarks and Evaluation (基准应该包含文本语料库、黄金标准和评估指标等)
- 无监督方法比监督方法更稳健,但监督方法优于无监督方法
网友评论