1. 条件随机场模型
- 条件随机场是一种判别式模型,直接对
进行建模;条件随机场假设
;其中
是特征向量;
是特征向量对应的权重,从训练数据中学习得到;
2. CRF与HMM的关系
2.1 HMM模型
- 对于HMM模型直接对联合概率
进行建模:下式中
表示初始概率;
表示转移概率;
表示发射概率;
- 对上式取log可以将相乘变成相加:
2.2 发射概率
- 对于上述蓝色部分的发射概率公式,可以表示成如下形式:其中
为给定标签
,其单词为
的概率;
表示在样本
中
共同出现的次数;
表示枚举语料中所有可能的
的组合;
![](https://img.haomeiwen.com/i15650683/9adb47ddaebc1fa2.png)
2.3 HMM模型转换
-
对HMM中所有的概率项进行转换,可以得到如下形式:
-
从下图可以看出,HMM模型可以表示成如下形式:
HMM模型另外一种表达.png
2.4 HMM vs CRF模型
-
从下图可以看出CRF模型其实跟HMM模型是一样的,只是CRF模型可以自定义各种特征;
CRF模型 vs HMM模型.png
3. CRF转移特征&状态特征
- 转移特征定义了隐状态之间的关系,对于词性标注问题即(tag, tag)之间的关系;状态特征定义了(word, tag)之间的关系;
- 对于一个单一的样本,状态特征定义如下表所示:假设总共有
个可能的tag,
可能的word,则最终的状态特征的数量为:
;
![](https://img.haomeiwen.com/i15650683/e6a29b6f5808c592.png)
-
转移特征定义如下表所示:
转移特征.png
-
转移特征的数量为:
;条件随机场的优势在于,你可以自定义所有可能的特征;
image.png
4. 条件随机场训练目标
- 假设给定训练集:
;
- 条件随机场的目标是:找到特征向量
,是的目标函数
最大化;为了最大化目标函数
,则需要将
(训练语料中出现的组合)最大化,并且使得
(训练语料中没有出现的组合)最小化;
- 条件随机场模型的学习算法可以采用:改进的迭代尺度法(IIS)、梯度下降法、拟牛顿法(BFGS);
5. 条件随机场预测
- 条件随机场预测目标是找到
,使得
最大化;也可以使用维特比算法进行求解;
- 条件随机场预测的维特比算法如下:
输入:模型特征向量
和权值向量
,观测序列
;
输出:最优路径;其中
表示标签的数量;
(1)初始化
(2)递推,对
(3)终止
(4)返回路径
求得最优路径:
6. CRF vs HMM优缺点
- CRF训练目标考虑,增大
,并且减小
;所以对于训练语料中出现的答案,CRF模型更有可能学对;
- CRF模型能够定义更多丰富的特征,所以能利用更多的上下文信息;HMM做了两个基本的假设,使得其具有一定的局限性;
![](https://img.haomeiwen.com/i15650683/90441998bebc6c1e.png)
参考资料
- 《统计学习方法》- 李航
- 结构化预测 - 序列标注,[李宏毅,机器学习2016] https://www.bilibili.com/video/BV1Ux411S7Yk?p=24
- CRF 和 HMM 的区别与联系 https://zhuanlan.zhihu.com/p/88690315
- NLP公开课(全网最通俗的HMM/CRF/BERT讲解) https://www.bilibili.com/video/BV1DK411M73n/?spm_id_from=autoNext
网友评论