最近学习了scrapy,于是准备拿《盗墓笔记》来练手,谁叫我是三叔的脑残粉呢。
1.分析原站
原站:http://www.lread.net/read/70/,分析源代码,发现结构还是比较简单。我们需要的是章节名,每一章的链接。
2.开始下手吧
新建一个工作目录,然后用命令行创建工程,工程名为daomubiji。
>scrapy startproject daomubiji
然后用IDE打开你的工程,会得到如下的目录结构:
在spiders文件中创建一个python文件,叫daomu.py,做为爬虫的脚本。内容如下:
在命令行里运行一下试试:
>cd daomubiji
>scrapy crawl daomu
可以看到章节和对应的url已经打印出来了。
3.使用管道Pipelines
在工程结构中还有几个文件是干嘛的?
items.py:定义需要抓取并后期处理的数据。
settings.py:配置scrapy,从而修改user-agent,设定爬取间隔时间,设置代理,配置各种中间件等。
pipeline.py:对已抓取的内容的后期处理,可以写入本地文件或者数据库。
在items.py中定义一个class来描述我要抓取的内容:
修改爬虫的代码:
在pipeline.py文件中,把爬虫传过来的item保存到一个result.csv文件中:
重新运行:
>scrapy crawl daomu
检查result.csv,盗墓笔记的章节信息就被爬下来啦:
To Be Continued...
网友评论