一.背景
首先交代使用beautifulshop的背景。小编是的策略RD,需要一些历史的语料数据做词向量的input data,因此才自己实现了一个简单的爬虫,因此,本文适合有简单文本资料需求的工程师参考,如果要实现一个较为复杂的网页爬虫,beautifulshop也有相关功能,建议阅读
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
二. 需求介绍
简单的获取网页内容
三.实现描述
1.获取网页内容:
shell版本:wget ****.html
python版本:import urllib
s=urllib.urlopen('http://www.**shiliao**.com')
2.解析内容:
原内容结构如下:
<head>
... <title>...</title>
<div id="content">
祖光武皇帝讳秀,字文叔,南阳蔡阳人,高祖九世之孙也.......
</div>
...
</head>
需要获取的是中间这段<div id="content">...</div>的文字,实现如下:

使用soup中的函数find_all首先找到div,并通过id="content",就可以找到中间这一段,这个find_all函数笔者感觉一定是用正则表达式实现的,类比于re.findall
再使用item.get_text()获取文字部分。
对了,忘了介绍了,soup对象的定义方法:

选对工具,就是这么简单^_^.
网友评论