第一个爬虫

作者: 芈子契 | 来源:发表于2017-02-16 19:31 被阅读26次

第一个爬虫
Java爬虫：用java爬取小说
scrapy自定义Pipline
入门python爬虫
Scrapy爬虫入门
Python爬虫之《电影天堂》电影详情+下载地址爬取
Python网络爬虫2 - 爬取新浪微博用户图片
Scrapy 爬虫的基本使用
【爬虫1】TED演讲
爬虫正传-江湖路远-0101-刀未佩妥，出门已是江湖

在慕课网上学习了简单的爬虫该怎么写，看了一遍，敲了一遍，还是有些迷糊，于是，又把每一步的要点总结了一下。

课程地址：http://www.imooc.com/video/10674

###### spider_main

1.编写入口函数（main函数）

（1）设置要爬取的入口url

（2）通过SpiderMain（）创建一个spider

（3）调动spider的craw方法启动爬虫

（4）创建SpiderMain（）这个class，并创建craw（）函数

（5）在构造函数中初始化url管理器，下载器，解析器，输出器

（6）创建并初始化各个class并import他们

（7）在craw（）方法中将入口url添加进url管理器

（8）创建循环获取url管理器中的一个待爬取url

（9）下载页面存储到html_cont

（10）通过parser解析（new_url,html_cont）创建new_urls,new_data(新链接和新数据)

（11）outputer收集数据

（12）调用outputer的output_html（）输出收集到的数据

（13）创建各个方法

（14）创建count，记录爬取了第几个url

（15）加判断，1000个爬取后停止

（16）加异常处理，加到try块中

###### url_manager

（1）在构造函数中创建new_urls和old_urls

1.在add_new_url中

（1）判断url是否为空

（2）若url既不在new_urls中也不在old_urls中，add进new_urls

2.在add_new_urls中

（1）判断url是否为空或长度是否为0

（2）通过循环，将url加入new_urls（调用add_new_url）

3.在has_new_url中

（1）判断url是否为0，并返回

4.在get_new_url中

（1）通过pop函数获取待爬取url

（2）将获取的url放入old_urls

（3）返回获取到的url

###### HtmlDownloader

1.在download函数中

（1）判断url是否为空

（2）通过urllib的urlopen打开url

（3）通过判断getcode（）是否为200 判断请求是否成功

（4）若成功，返回read（）

###### HtmlParser

1.在parse中

（1）判断page_url和html_url

（2）创建soap，加载cont

（3）创建两个本地方法，获取urls和data

（4）实现两个方法,并返回

2.在_get_new_urls中

（1）通过soup获取所有的链接（用正则表达式）

（2）通过循环，将所有链接放入link['href']

（3）将不完整的链接拼接（通过urljoin）

（4）将链接添加到new_urls,返回new_urls

3.在_get_new_data中

（1）建立res_data存放title和summary数据

（2）建立title_node，summary_node

（3）通过soup，提取数据

（4）将数据提取出来，放入res_data中

（5）将url也放入res_data

（6）返回res_data

######Outputer

1.在构造函数中初始化，建立列表维护数据

2.在collect_data中

（1）判断数据是否为空

（2）不为空就加入到self.datas

3.在output_html中

（1）建立文件输出对象

（2）加入html，body，table标签和他们的闭合标签

（3）在每一行中，输出data的url，title，summary

（4）用encode将编码规则变为utf-8

网友评论

本文标题：第一个爬虫

本文链接：https://www.haomeiwen.com/subject/uhzeittx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

第一个爬虫

相关文章