缺乏数学功底,《数学之美》这本书读起来逐渐感觉有些吃力了,不过还是能从吴军老师的表述中感觉到一些数学的魅力。可以预感到,接下来的笔记会越来越枯燥了。
在这一章里,吴老师主要讲了三个感念:通信模型、马尔可夫链、隐含马尔可夫模型。前两个相对容易理解,隐含马尔可夫模型就又些晦涩难懂了,不得不在网上查了一些内容帮助理解。
一、通信模型
如上图所示,通信的本质就是一个编解码和传输的过程。
发送者(人或者机器)把信息编码成为一串信号(S1,S2,S3,···比如手机发送的信号),然后通过一种媒体(无线电、电线等)将信号发送到接收者的手里,接收者便接收到了一串信号(O1,O2,O3,···),接收者再通过事先约定好的规则和上下文规则将这些信号解码,还原成原来的信息,这就是最基本的通信模型。
在实际操作中,几乎所有的自然语言处理问题(比如语音识别、机器翻译、自动纠错等)都可以等价成通信的解码问题。在通信中,接受者如何根据观测信号O1,O2,O3,···来推测发送者发送的信息S1,S2,S3,···呢?只需要从所有源信息中找到最可能产生出观测信号的那一个信息即可,这个问题正好可以通过数学来解决。
二、马尔可夫过程
现在我们不写数学公式,也不画模型图,只通过大白话来概括一下马尔可夫链的精髓。所谓的马尔可夫过程,就是符合马尔可夫假设的随机过程。
那么,什么是随机过程,什么又是马尔可夫假设呢?举个例子,我们把今年4月份成都每天的最高气温纪录下来,这个气温的变化就是一个随机过程,很明显气温之间的变化是有联系的,而马尔可夫假设今天的气温只和昨天的气温有关。
因此,马尔可夫过程的定义本身其实很简单,它假设某一时刻的状态转移的概率只依赖于它的前一个状态。虽然马尔可夫链很任性,但它却是可以让很多复杂的问题变的更简单。
三、隐含马尔可夫模型
隐含马尔可夫模型是一个统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。下面用一个简单的例子来阐述:
1、假设现在有三个不同的骰子。
第一个骰子是常见的骰子(称这个骰子为D6),6个面,每个面(1,2,3,4,5,6)出现的概率是1/6。
第二个骰子是个四面体(称这个骰子为D4),每个面(1,2,3,4)出现的概率是1/4。
第三个骰子有八个面(称这个骰子为D8),每个面(1,2,3,4,5,6,7,8)出现的概率是1/8。
2、现在我们开始掷骰子,先从三个骰子里挑一个,挑到每一个骰子的概率都是1/3。然后开始掷骰子,得到一个数字,1,2,3,4,5,6,7,8中的一个。不停的重复上述过程,我们会得到一串数字,每个数字都是1,2,3,4,5,6,7,8中的一个。
例如我们可能得到这么一串数字(掷骰子10次):1 6 3 5 2 7 3 5 2 4。这串数字叫做可见状态链。
3、在隐含马尔可夫模型中,我们不仅仅有这么一串可见状态链,还有一串隐含状态链。在这个例子中,这串隐含状态链就是你用的骰子的序列。比如,隐含状态链有可能是:D6 D8 D8 D6 D4 D8 D6 D6 D4 D8。
当然,这个例子中的概率值都是可以更改的,比如说我们可以规定D6的挑选概率为1/2,D4和D8为1/4,或者D4后不能选D6这样的规定。
这就是所谓的隐含马尔科夫模型。(例子来自博客园,博主:skyme)
祝春安。
(未完待续……)
网友评论