什么是信息抽取?
信息抽取是指在预定的表格栏目里填写内容,内容从文本中自动摘录
- 传统的自然语言理解旨在模拟人的语言理解过程,解构全部语义。
- 信息抽取有所不同,因为有了预定目标,所以系统不需要理解语言的所有结构和意义,而是只要针对目标寻找合适的技术和手段去填空即可。尽管有些信息抽取系统不用或少用自然语言技术,如通过html进行抽取,但信息抽取的主体还是基于不同程度的自然语言分析。研究人员发现语言分析越深入,信息抽取系统对于不同的抽取目标的适应性以及领域的可移植性就强。同时,抽取对象越复杂,对于语言分析深度的依赖也越强。
信息抽取三大任务
- 时间地点,专名实体的识别,如自动标注文本中的人名和机构名 (基础)准确度已经达到90%
- 实体关系的抽取,如雇佣关系,竞争关系,准确度80%
- 事件的抽取,如谋杀事件,人质事件等等
事件抽取系统的难点在于领域的移植性
网友评论