outline
- 数学基础
- HMM
- CRF
- 主题模型
数学基础
贝叶斯公式:
联概 = 条概*边概
条件概率 = 联合概率/边缘概率
贝叶斯公式.png
概率图模型(Probabilistic graphical model,PGM)是一类由图来表示变量相关关系的概率模型
在概率模型中,利用已知变量推测未知变量的分布称为"推断"
联概--> 条概
生成式模型直接对联合分布进行建模
判别式模型则对条件分布进行建模
从马尔可夫性说起
马尔可夫性.png隐马尔科夫模型(Hidden Markov Model,HMM)
HMM的结构
HMM是结构最简单的动态贝叶斯网。
如下图所示为HMM的结构,HMM的变量可分为两组:
- x为观测变量
-
y为状态变量(隐变量-hidden variable),y的取值范围通常是有N个可能取值的离散空间
HMM-graph.png
如上图所示,在任意时刻,x的取值仅依赖于y(x<--y,x由y确定);
下一刻的状态仅由当前状态决定,不依赖于以往的任何状态,由y(t-1)确定y(t),与其它状态无关
基于这种依赖关系的联合概率分布如下:
HMM-公式.png
确定一个HMM的三组参数
- 状态转移概率:
y(t) --> y(t+1)的转移矩阵-- A - 输出观测概率:
y-->x 的矩阵 -- B -
初始状态概率:
表示模型的初始状态为s的概率 -- π
微信图片_20190225234849.png
当确定这三组参数,可按如下过程产生观测变量x:
image.png
HMM模型有三个基本问题:
- 概率计算问题
- 预测问题(解码问题)
求解最可能的隐状态序列 -
学习问题
image.png
概率计算问题
-
前向算法:
微信图片_20190225234852.png - 后向算法
条件随机场(Conditional Random Field,CRF)
CRF是一种判别式无向图模型
CRF的目标是构建条件概率模型P(y|x)
image.png
在现实应用中,最常用的是如下图的链式结构,“链式条件随机场”
image.png
与HMM相同,CRF也有类似的三个基本问题
主题模型(topic model)概述
topic model是一族生成式有向图模型。
主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。
主题就是一个概念、一个方面。它表现为一系列相关的词语。主题就是词汇表上词语的条件概率分布 。与主题关系越密切的词语,它的条件概率越大,反之则越小。
主题模型训练推理的方法:
- pLSA(Probabilistic Latent Semantic Analysis)
主要使用的是EM(期望最大化)算法 - LDA(Latent Dirichlet Allocation)
采用的是Gibbs sampling方法。
主题模型的优点:
- 它可以衡量文档之间的语义相似性。对于一篇文档,我们求出来的主题分布可以看作是对它的一个抽象表示。对于概率分布,我们可以通过一些距离公式(比如KL距离)来计算出两篇文档的语义距离,从而得到它们之间的相似度。
- 它可以解决多义词的问题。回想最开始的例子,“苹果”可能是水果,也可能指苹果公司。通过我们求出来的“词语-主题”概率分布,我们就可以知道“苹果”都属于哪些主题,就可以通过主题的匹配来计算它与其他文字之间的相似度。
- 它可以排除文档中噪音的影响。一般来说,文档中的噪音往往处于次要主题中,我们可以把它们忽略掉,只保持文档中最主要的主题。
- 它是无监督的,完全自动化的。我们只需要提供训练文档,它就可以自动训练出各种概率,无需任何人工标注过程。
- 它是跟语言无关的。任何语言只要能够对它进行分词,就可以进行训练,得到它的主题分布。
网友评论