使用beautifulshop做简单的爬虫

作者: 小小兰哈哈 | 来源:发表于2018-08-20 13:08 被阅读0次

使用beautifulshop做简单的爬虫
【openshift-4】实现简单爬虫功能+生成在线API
python爬虫8: Requests库使用
一个简单的网络爬虫
使用 superagent 与 cheerio 完成简单爬虫
Python爬虫（一）
Python爬虫简述系列之一
python使用chrome driver做简单爬虫
java爬虫与python爬虫谁更强？
各语言简单爬虫

一.背景

首先交代使用beautifulshop的背景。小编是的策略RD，需要一些历史的语料数据做词向量的input data，因此才自己实现了一个简单的爬虫，因此，本文适合有简单文本资料需求的工程师参考，如果要实现一个较为复杂的网页爬虫，beautifulshop也有相关功能，建议阅读

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

二. 需求介绍

简单的获取网页内容

三.实现描述

1.获取网页内容：

shell版本：wget ****.html

python版本：import urllib

s=urllib.urlopen('http://www.**shiliao**.com')

2.解析内容：

原内容结构如下：

<head>

... <title>...</title>

祖光武皇帝讳秀，字文叔，南阳蔡阳人，高祖九世之孙也.......

</div>

...

</head>

需要获取的是中间这段<div id="content">...</div>的文字，实现如下：

使用soup中的函数find_all首先找到div，并通过id="content"，就可以找到中间这一段，这个find_all函数笔者感觉一定是用正则表达式实现的，类比于re.findall

再使用item.get_text()获取文字部分。

对了，忘了介绍了，soup对象的定义方法：

soup定义

选对工具，就是这么简单^_^.

网友评论

本文标题：使用beautifulshop做简单的爬虫

本文链接：https://www.haomeiwen.com/subject/rsakiftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

使用beautifulshop做简单的爬虫

一.背景

二. 需求介绍

三.实现描述

2.解析内容：

相关文章