事件抽取
1.事件抽取的任务定义
-
事件抽取是信息抽取中的难点问题
- 事件抽取依赖实体抽取和关系抽取
-
相较于实体抽取和关系抽取,事件抽取难度更大
在这里插入图片描述
实体抽取:1992年10月3日,奥巴马,米歇尔,三一联合基督教堂
关系抽取:夫妻关系:奥巴马,米歇尔
事件抽取:事件类型:结婚事件,配偶:奥巴马,配偶:米歇尔,事件:1992年10月3日,地点:三一联合基督教堂
-
事件的定义:事件起源于认知科学,常常在哲学、语言学、计算机科学等领域被广泛讨论。在不同的领域,针对不同的应用,不同的人对事件有不同的描述。
-
事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
- 不同的动作或者状态的改变代表不同类型的事件
- 同一个类型的事件中不同的元素代表了不同的事件实例
- 同一个类型的事件中不同粒度的元素代表不同粒度的事件实例
-
事件抽取的定义:从自然语言文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来,如什么人,什么时间,在什么地方,做了什么事。
-
事件抽取相关的术语:事件描述(Event mention),事件触发词(Event Trigger),事件元素(Event argument),元素角色(Argument role)
2. 事件抽取评测及语料资源
在这里插入图片描述3. 事件抽取的典型方法
3.1 基于模式匹配的方法
- 平面模式主要基于词袋等字符串特征构成模式
-
结构模式更多地考虑了句子的结构信息,融入句法分析特征
在这里插入图片描述 - 缺点:领域相关,可扩展性差;需要大量的人工标注,耗时耗力
3.2 基于机器学习的方法
-
目前主要采用统计机器学习的方法,将事件实例转换成高维空间中的特征向量或直接用离散结构来表示,在标注语料库上训练生成模型,然后再识别事件及其元素。
- 基于特征向量方法:利用最大熵、朴素贝叶斯和支持向量机等
- 主要问题:如何获取各种有效的词法、句法、语义等特征,并把它们有效地集成起来,从而产生描述单词或者词组触发事件和候选事件元素扮演事件角色的各种局部特征和简单的全局特征。
- 基于句子级信息:从句子中提取特征,利用最大熵、朴素贝叶斯和支持向量机等模型完成事件抽取
- 基于篇章和背景信息:在句子级信息基础上更多地考虑篇章级信息和丰富的背景知识。
- 基于结构的方法:依存树机构、自定义联合结构等
- 主要问题:将时间抽取堪称一个结构预测的问题。如何建模事件的结构并有效地挖掘反映事件的结构化的信息及特征
- 看做依存树结构预测问题:生物事件
- 自定义联合结构的预测问题:触发词和事件元素联合预测
- 基于神经网络的方法:多层感知机、卷积神经网络、循环神经网络等
- 主要问题:如何设计合理的网络结构,从而捕捉更多的信息,进而更准确的完成关系的抽取
- 网络结构:不同的网络结构捕捉文本中不同的信息
- 基于特征向量方法:利用最大熵、朴素贝叶斯和支持向量机等
-
基于神经网络的方法:基于动态最大池化技术的卷积神经网络Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks(Chen et al., ACL 2015)
- 动机:传统方法主要提取两类特征:词汇特征和句子级特征。其中词汇特征过于依赖人工,是一种独热表示,缺乏语义;句子级特征会用到复杂的NLP工具,引起错误传递。
- eg:
S1:Obama beats McCain(Elect Event)
S2:Tyson beats his opponent(Attack Event)- Beat 有两种语义,触发不同的事件。如果知道Obama和McCain是总统,Tyson是拳击选手这些,能更好地判别beat的类型。
- 我们用词向量的方法捕捉这种语义信息
- 方法:DMCNN
- 由4部分组成:word-embedding learning; lexical-level feature representation; sentence-level feature extraction; argument classifier output。
-
传统的CNN利用最大池化技术,选取最大值代表每个feature map,但是事件抽取任务重一句话存在两个或者多个事件,所以提出动态最大池化技术来根据trigger和argument候选的位置,在不损失最大值的前提下,获取更多的有用信息。
在这里插入图片描述
-
基于神经网络的方法:基于有监督关注机制的多层感知机模型Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms(Liu et al., ACL 2017
- 事件的主要元素:触发词和事件角色
-
事件角色为事件识别任务提供重要线索
在这里插入图片描述
在这里插入图片描述 - 构建标准关注向量
-
策略1:只关注角色词
在这里插入图片描述 - 策略2:同时关注角色词及其周围的词,距离角色词越近的词受到的关注度越高
-
-
融合FrameNet的事件识别方法(Liu et al., ACL 2016)
- FrameNet:语言学家定义及标注的语义框架资源;层级的组织结构
- FrameNet规模:1000+框架;10000+词法单元;150000+标注例句
- 结构相似性:
- 框架:一个词法单元和若干框架元素
- 事件:一个触发词和若干事件角色
-
含义相似性:
在这里插入图片描述 -
系统框架图
在这里插入图片描述
-
基于世界知识和语言学知识的事件语料大规模自动生成方法(Chen et al., ACL 2017)
- 现有方法的问题:
- 有监督的事件抽取方法:过分依赖人工标注的数据,耗时、费力、成本高昂,规模小,覆盖度低
- 无监督的事件抽取方法:抽取的结果没有规范的语义标签,很难直接映射到现有知识库
- 动机
- 自动生成标注语料:开放域环境,大规模自动抽取
-
远距离监督的方法在关系抽取中取得成功
在这里插入图片描述
- 方法:
- 利用世界知识和语言学知识
-
自动生成大规模事件语料
在这里插入图片描述
- 现有方法的问题:
-
事件框架学习:基于模板的事件抽取系统Template-Based Information Extraction without Templates ( Nathael Chambers ACL2011)
-
任务:无监督地学习事件框架;事件框架描述了一类事件的结构,例如下图描述了爆炸事件的框架
在这里插入图片描述 - 方法:
- 从文本语料中抽取事件元素(用参与者、动词以及参与者与动词之间的句法关系表示事件元素)。
- 对抽取到的事件元素进行初步聚类(相似度利用互信息衡量)
- 对每个聚类结果,在搜索引擎中搜索类内的事件元素,将返回的文档作为扩充语料
-
利用扩充语料对每个初步聚类结果内的元素进行再聚类,再聚类的结果作为事件框架(每个聚类结果是一个事件,结果内的元素是该事件的元素)
在这里插入图片描述
-
4. 事件抽取的相关应用
4.1 生成故事大纲
- 一篇文章中多个事件Task Joint Inference for Event Timeline Construction(Quang
Xuan Do et al.,)ACL2012- 任务:输入一篇文章,将文章中的事件按时序排序
- 基本概念:
- 时序关系:before, after, overlap and no relation
- 事件间隔:pairs of time endpoints,共有两类:显式间隔和隐式间隔
- 方法:
- 识别时间构建Timeline
- 识别事件
- 建立事件和时间的关系
- 同一个时间段内建立事件间的时序关系
- 一个事件在多篇文章Building Event Threads out of Multiple News Articles(Xavier
Tannier et al.,)EMNLP2013- 任务:从多篇文章中抽取同一事件的不同阶段
- 方法:层级分类器
- 区分事件对之间有关系还是没有关系
- 区分相同事件或者顺承事件
-
从顺承事件中寻找反应事件
在这里插入图片描述
- 社交媒体中的故事大纲生成Generating Event Storylines from Microblogs(li et al.,) CIKM2012
-
任务:给定一个关键词的查询,根据tweet消息生成故事大纲
在这里插入图片描述 - 方法:
- 检索得到相关的Tweet
- 选取每个阶段中代表性的Tweet
-
由各个阶段中代表性的Tweet联合起来得到最终的故事大纲
在这里插入图片描述
-
4.2 预测新事件
-
预测自然事件Mining the Web to Predict Future Events(Kira Radinsky et al.,)
WSDM 2013 -
预测股票事件Using Structured Events to Predict Stock Price Movement : An Empirical Investigation ( Ding et al.,)EMNLP2014
网友评论