对于命名实体识别,我们一般是以下两种方法:
总体.jpg
一般来说,基于规则的方法识别性能要优于基于统计的方法约2%左右,这是由于手写规则捕获命名实体重要特征的能力比当前的机器学习方法强。但是,基于规则的系统存在着难以克服的缺点:基于规则的系统开发非常昂贵,并且系统性能的好坏完全依赖于设计者的语言知识;虽然系统的准确率很高,但是规则的覆盖度却很差,基于规则的系统缺乏适应性,不便于移植。
基于统计的方法主要是利用标注语料库来训练某个字作为命名实体组成部分的概率,并用它们来计算某个候选字段作为命名实体的概率值,若大于某一闭值,则识别为命名实体。与规则方法相比,基于统计方法的系统具有更好的健壮性和灵活性,且实现的代价较小,便于移植。目前,越来越多的统计语言模型被用于命名实体识别,包括隐马尔科夫模型、最大熵模型、支持向量机和决策树等。基于统计方法的优点在于,对语言的依赖性小,可移植性好。接下来我们介绍两种目前常用的基于统计模型的算法。
1.HMM
HMM.jpg
什么是HMM?先由一个马尔可夫链随机生成一个不可观测的状态随机序列,再由产生的状态生成一个可观测的随机序列。一般的,我们将不可观测的随机序列为状态序列(state sequence),由状态产生的可观测序列为观测序列(observation sequence)。由于这一随机过程中,状态序列不可见,且由马尔可夫过程产生,正是隐马尔可夫模型中“隐”的含义所在。 具体到命名实体识别任务中,对任意输入字符串及每个实体类别的出现都看作一个随机过程。
然而HMM仅仅利用词汇本身特性,参数被训练来最大化拟合训练语料的联合概率。为了定义一个观察值和标注值的联合概率,产生式模型必须列出所有可能的观察序列。在实际情况中,列出观察序列的多类交互的特征或者长距离约束是不现实的。其次,在产生式模型中比较难结合多种丰富重叠的特征。再次,产生式模型必须在观察序列中设置非常严格的假设条件,即观测值出现的概率只和当前的状态有关,而与其它的信息无关。
因此我们提出了CRF。
2.CRF
CRF.jpg
什么事CRF?条件随机场则是在给定随机变量 𝑋 的条件下,随机变量 𝑌 的马尔可夫随机场。马儿可夫随机场指的是满足以下三个特性:
(1)成对马尔可夫性(点与点之间的独立性):
指概率图中任意两个无边连接的节点,在给定其他所有节点的随机变量组的前提下满足条件独立。一般的,若设两个无概率依赖(即无边连接)的节点𝑢, 𝑣∈𝐸 ,与之对应的随机变量为 𝑌𝑢, 𝑌𝑣 ,无向图其他节点集合为 𝑂 ,与之对应的随机变量组为 𝑌𝑂 ,则在给定 𝑌𝑂 的情况下,𝑌𝑢 与 𝑌𝑣 条件独立,即:
P(Y_u,Y_v│Y_O )=P(Y_u |Y_O)P(Y_v│Y_O ) (1)
(2)局部马尔可夫性(点与点集之间的独立性):
指概率图中任意一个随机变量,在给定与其依赖的(有边连接的)所有随机变量的前提下,该点与同他不相关随机变量集合满足条件独立。一般的,若设节点 𝑢∈{E},与之相关的随机变量组为 Y_(W ),与之不相关的随机变量组为 Y_O ,则在给定 Y_W 的情况下,Y_u与Y_O条件独立:
P(Y_u,Y_O│Y_W )=P(Y_u |Y_W)P(Y_O│Y_W ) (2)
其中,当(P(Y_O│Y_W )>0 时,式(1-2)两边同除因子,并由条件概率公式可得等价关系:
P(Y_u│Y_W )=P(Y_u |Y_W,Y_O) (3)
(3)全局马尔可夫性(点集与点集之间的独立性):
若设随机变量集合 A,B 在概率图中被集合 C 隔离,即 A,B 两个集合中间没有直接的概率依赖,但通过集合 C 相连,那么在给定随机变量组〖 Y〗C 的情况下, Y(A )与 Y_B 条件独立,即:
P(Y_A,Y_B│Y_C )=P(Y_A |Y_C)P(Y_B│Y_C ) (4)
CRFs 克服了标记偏置等问题,避免了对文本序列建模,同时在一定程度上利用了文本中丰富的上下文特征,在中文命名实体识别任务中,取得了不错的效果,代表了当前 the-state-of-the-art。
从HMM、CRFs 等统计模型的实验结果来看,经过对给定标记语料进行训练后,这些全监督学习到的模型对训练语料本身的特征已经有了很好概括和抽象,在与训练语料领域相同的封闭测试集上的标注结果也十分出色。然而,一方面,用这些模型对其他领域的语料进行标注时,标注效果下降十分明显。另一方面,现实中的语言模型不一定满足传统统计模型中条件独立假设的前提。实践中,统计模型由特定语料训练得到的模型往往具有很强的特征偏向性。究其更深层原因,是因为这些理论模型是在一系列条件独立的概率学假设基础上建立的,这种假设下的统计模型显然对复杂的语言模型缺乏完备的描述和有效的抽象。这进一步说明了这些模型方法并不具备优秀的迁移学习(Transfer Learning)和启发学习(Heuristic Learning
)的能力。
因此我们提出了基于神经网络的命名实体识别。说到神经网络,首先介绍RNN。
3RNN
RNN.jpg
RNN是一个随着时间的推移,重复发生的结构,这反复出现的神经网络可以被认为是在同一个网络中的多个副本,每个都传递消息给继承者,就是下个时态的神经元。
然而RNN存在长时间依赖问题,即不能处理距离太远的信息。
所以我们提出LSTM,不存在这个问题。
4LSTM
LSTM.jpg
LSTM可以完全删除或添加单元状态的信息,被称为门限“gates”的结构将会控制信息,门限可以选择性的让信息通过,它由Sigmoid神经网络层和点乘操作组成。一个LSTM有3各Sigmoid,分别控制输入、更新、输出。
网友评论