softmax: 把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。
HMM可用于分词,CRF多用于词性标注、命名实体识别
【CRF】https://zhuanlan.zhihu.com/p/44042528
BiLSTM-CRF的输入是词嵌入向量,输出是每个单词对应的预测标签。
如上图所示,BiLSTM层的输入表示该单词对应各个类别的分数。如W0,BiLSTM节点的输出是1.5 (B-Person), 0.9 (I-Person), 0.1 (B-Organization), 0.08 (I-Organization) and 0.05 (O)。这些分数将会是CRF层的输入。
所有的经BiLSTM层输出的分数将作为CRF层的输入,类别序列中分数最高的类别就是我们预测的最终结果。
CRF层可以学习到句子的约束条件:
CRF层可以加入一些约束来保证最终预测结果是有效的。这些约束可以在训练数据时被CRF层自动学习得到。(在那一篇文章中,其实是特征函数集)
CRF层中的损失函数包括两种类型的分数,而理解这两类分数的计算是理解CRF的关键。
Emission score
第一个类型的分数是发射分数(状态分数)。这些状态分数来自BiLSTM层的输出。如下图所示,w0被预测为B-Person的分数是1.5.
CRF损失函数
CRF损失函数由两部分组成,真实路径的分数 和 所有路径的总分数。真实路径的分数应该是所有路径中分数最高的。
网友评论