实体识别的难点,不好建模,比如投资关系:
1.方向:投资方和被投方
2.关系多维,错综复杂:投资方有多个,被投资只有一个。一对多,多对一,多对多
3.俩个实体有多个关系:某两个人 既是同学,又是夫妻
4.标注问题
难点在于不好建模,多对多的问题通过穷举法来建模,比如100个单词有10个关系,那么其中一个单词与其他99个单词,有这10个关系中的一种。
联合模型的优势:
一个实体有头和尾两个单词,那只用尾来预测,头用实体识别来补充。
先实体识别、再抽取关系
预测出头之后,再根据之前的命名实体识别,把后面的进行补充
获取用一个实体的尾巴去预测另一个实体的尾巴
数据处理
B-loc 开始
I-loc 中间的和结束
o other 代表不是实体
['N']代表没有关系
比如:LI Taylor Swift
LI B-loc ['N']
Taylor I-loc ['N']
Swift I-loc ['出生于','工作于'] [7,8]
用一个实体的尾巴去预测另一个实体的尾巴
而不需要
LI B-loc ['出生于','工作于'] [7,8]
Taylor I-loc ['出生于','工作于'] [7,8]
Swift I-loc ['出生于','工作于'] [7,8]
这样就是多对多,把情况变复杂了
adv虚拟对抗模式adversarial
BIO 或者BIOES
这个标注没有几个G,10万条数据就可以了。
半监督学习:
把有监督学习和无监督学习结合起来了。
模型是两层的双向lstm。无监督体现在 用它来训练一个分类器,训练一个语言模型,训练完了之后,再放到有监督的文本分类器模型中。
语言模型都是不需要标签的,根据上一个字来预测下一个字
网友评论