Python 3 爬虫学习笔记 8 马尔科夫模型

作者: 懒大 | 来源:发表于2017-02-14 06:12 被阅读0次

Python 3 爬虫学习笔记 8 马尔科夫模型
隐马尔科夫模型（1）基本概念和概率计算
【火炉炼AI】机器学习044-创建隐马尔科夫模型
Python 爬虫笔记1 一（简单开场）
隐马尔科夫模型HMM
机器学习系列-随机过程
隐性马尔科夫模型简介,只聊原理, (保证没有数学)
Jieba分词原理浅析与应用（上）
马尔科夫模型的几个子模型
Jieba分词原理与解析

此学习笔记整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 8 Reading and writing natural languages

这一章比较有意思，值得一看！

首先上代码

上面的没什么可说的，urlopen,read,utf-8 解码（好像是），str变成文本。

下面的这是一个构造对应字典的函数。哦，差点忘了介绍马尔科夫模型和这一章作者拿来玩的东西。马尔科夫模型，我也说不清，大致就是一个分析流程，看A后面可能发生什么东东（BCDEFG等等，各有各的概率），随机从一个字母开始，随机生成其跟随的字母，最后组成一系列流程。作者根据一篇演讲（http://pythonscraping.com/files/inaugurationSpeech.txt）分析，看某个单词后面都跟了哪些单词，然后再从I 出发，构造一段话。就是I 然后后面随机选择一个单词，比如believe，然后再根据这个believe再随机选取一个单词，最后构成一段话。听起来挺简单的，大致分析下，流程如下：

1，找到频率分析文本，我们已经做了

2，构造对应关系，比如I后面都有哪些单词，出现了几次之类的

3，随机生成一个单词

4，重复2-4 N 次

下面我们看构造对应关系的函数，作者用的是嵌套字典。举个栗子，{‘我’：{‘爱’：1，‘恨’：1}} 在第一层的字典‘我’是key，然后value是第二层的字典，里面有两个key 爱，恨，两个value 1 1.表示频次。

8-15很清楚，也有注释，可以看清楚的。

17行真的是让我打开眼界啊。还可以这么简洁地表达！正常应该写

words=[]

for word in 集合:

if word != ""

words.append(word)

作者四行写作一行也是让我看得一个形容词。

21行到28行：首先，为第一个单词甲来一个字典A，然后它的value是个字典B，字典B是否包括甲后面的单词乙。不包括的话加进去，字典B的key就是乙，value设为0，后面加一，没出现一次再加一。效果是{‘甲’：{‘乙’：1}}

上面完成了步骤2，然后就需要随机选择一个了。举个栗子：{‘我’：{‘爱’：1，‘恨’：1}}。现在需要我们在‘我’的后面随机选择一个字。作者用的方法非常巧妙，先算出有多少个字，这个栗子是2个，然后随机生成数字1或者2，然后用这个1或者2依次减去‘爱’和‘恨’的频次，出现0或者负数的时候，选取这个key值。比如，生成了1,1-1=0符合条件，那么就选择‘爱’，生成了2,2-1=1不符合条件，然后再次减去‘恨’的频次数，1（上一次计算剩下的1）-1（恨的品次数）=0，符合条件就选择‘恨’了。

这里需要 from random import randint 来生成随机整数