Day1-用scrapy爬《盗墓笔记》章节

作者: 小红鱼 | 来源:发表于2017-03-04 16:21 被阅读78次

最近学习了scrapy，于是准备拿《盗墓笔记》来练手，谁叫我是三叔的脑残粉呢。

1.分析原站

原站：http://www.lread.net/read/70/，分析源代码，发现结构还是比较简单。我们需要的是章节名，每一章的链接。

2.开始下手吧

新建一个工作目录，然后用命令行创建工程，工程名为daomubiji。

>scrapy startproject daomubiji

然后用IDE打开你的工程，会得到如下的目录结构：

在spiders文件中创建一个python文件，叫daomu.py，做为爬虫的脚本。内容如下：

在命令行里运行一下试试：

>cd daomubiji

>scrapy crawl daomu

可以看到章节和对应的url已经打印出来了。

3.使用管道Pipelines

在工程结构中还有几个文件是干嘛的？

items.py：定义需要抓取并后期处理的数据。

settings.py：配置scrapy，从而修改user-agent，设定爬取间隔时间，设置代理，配置各种中间件等。

pipeline.py：对已抓取的内容的后期处理，可以写入本地文件或者数据库。

在items.py中定义一个class来描述我要抓取的内容：

修改爬虫的代码：

在pipeline.py文件中，把爬虫传过来的item保存到一个result.csv文件中：

重新运行：

>scrapy crawl daomu

检查result.csv，盗墓笔记的章节信息就被爬下来啦：

To Be Continued...

网友评论

本文标题：Day1-用scrapy爬《盗墓笔记》章节

本文链接：https://www.haomeiwen.com/subject/zkbdgttx.html

Day1-用scrapy爬《盗墓笔记》章节