命名实体识器半监督学习的有效双语约束
摘要
利用大量双语文本(双文本)改进单语系统。英汉命名实体识别,减少中文错误。
介绍
当有大量标记训练数据可用时,监督学习的表现会更好。
但是手工标记的数据数量非常有限,
没有注释的数据更多
免费获取的web和新闻文本的数量呈爆炸式增长。
如果能够以明智的方式纳入如此大量的额外数据,人们就会期望大大增加系统的覆盖率。
采用半监督的方式解决此问题,如:bootstrapping;multi-view learning;structural learning。
无注释双文本的半监督学习
对于给定的语言对(如英汉),我们期望一种语言(如英语)比另一种语言(如汉语)拥有更多的带注释的培训资源,因此存在强单语模型(对英语)和弱单语模型(对汉语)。
自然语言处理中的大多数半监督方法都利用了单一语言中的未加注释的资源;但是,可以通过使用一种以上语言的并行资源来获取信息,因为将相同的话语翻译成不同的语言有助于消除彼此之间的歧义。
此论文描述了一种有效利用大量双语文本(又称双文本)来改进单语系统的方法。提出了一个因子概率序列模型,该模型鼓励跨语言和文档内部的一致性。提出了一种简单的吉布斯采样算法来进行近似推理。使用OntoNotes数据集进行的英汉命名实体识别(NER)实验表明,在双语测试环境中,他们的方法明显比最先进的单语CRF模型更准确。并且通过在双语模型中注释适量的未标记的双文本,并使用标记的数据进行升级训练,在斯坦福大学最先进的单语NER系统中减少了9.2%的中文错误。
在这项工作中,使用无注解双文本的半监督学习的方法。由于双文本包含跨两种语言的翻译,对齐的句子对将显示一些语义和语法上的相似性。因此,可以通过联合预测来约束这两个模型,从而使它们彼此一致,而这种联合预测是偏向于更明智的模型的。一般来说,在低资源模型中所犯的错误将由高资源模型来纠正。然后,将这种双语注释方法应用于大量未注释的双文本,并将得到的注释数据作为额外的训练数据,以训练一个新的单语模型与更好的覆盖面。
双语言NER约束是指在两种语言中,一对对齐的句子包含互补的线索,以帮助分析对方。例如,英文句子“Vice Foreign Affairs Minister Huaqiu Liu held talks with Kamyao”,中文句子“外交部副部长刘华秋与加米奥举行了会谈”,“Foreign Affairs”一词是指某个组织(外交部),还是指一般的外交事务,并不是很明显。但在中文这边,“对齐”这个词的含意要少得多,而且很容易被识别为一个组织实体。
同时使用了硬协议约束和软协议约束。如果只应用硬协议约束,任何不同任何标签对的输出序列对将被赋零概率。在实践中,这样的硬约束并不总是得到满足。文章通过使用概率度量来替换指示器函数(y, y)中的1和0来软化这些约束。首先使用两个基本的单语CRF标记来标记一组未加注释的双语句子对。然后从自动生成的标记数据中收集对齐的实体标记对计数。选择值(y,y)作为实体对(y,y)的两两互信息得分。
此模型引入了一个带有Gibbs sampling推理算法的因子模型,它可以用于为一个并行语料库生成更准确的标记结果,而且利用了跨语言双语约束和文档内部一致性约束。并进一步证明,使用此双语模型标记的未标记的平行语料库可以使用改进单语标记结果。
网友评论