远程监督的核心作用:为关系抽取任务or信息抽取任务,快速地、自动化地生成大量的训练数据集。
远程监督的核心弱点:存在很多噪声数据集,容易出现标注错误的情况。
针对以上问题,近年来的解决方法是通过与弱监督方法相结合,通过不同的弱监督信号来生成更高质量的训练标签,如基于模式的标注。
尽管弱监督融合既能生成更高质量的标注又有较好的可解释性,但该类方法也存在一定的局限性:通常假定由(领域专家)来提供具有关系指向性的模式规则,比如符合xxx:PER .* xxx:CITY的句子倾向于“出生地”关系。
这种人工撰写规则的方式需要大量的工作,当需要关系抽取的应用领域发生改变后,又得人工定义新的抽取规则,这样的方法就显得比较耗力耗时。
如何自动化的生成高质量的训练数据呢?
2018年的DIAG-NRE是新提出的一套神经模式整段框架来桥接远程监督与弱监督融合。分别包含:模式抽取和模式精炼。
[代码]https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2Fthunlp%2FDIAG-NRE
[论文]https://links.jianshu.com/go?to=https%3A%2F%2Fwww.aclweb.org%2Fanthology%2FP19-1137)
网友评论