——Scrapy是为持续运行设计的网络爬虫框架,提供操作的Scrapy命令行,更适合程序员使用
-
Scrapy常用命令行
1. 创建一个scrapy项目:scrapy startproject <项目名称>
2. 生成一个爬虫:scrapy genspider <爬虫名称> <允许爬取的域名>
3. 运行一个爬虫:scrapy crawl <爬虫名称>
以上,列出最常用的三个,其他可以用scrapy -h
查看
-
Scrapy项目流程
-
创建一个scrapy项目:scrapy startproject myspider
-
生成一个爬虫:scrapy genspider douban book.douban.com
-
提取数据:完善spider,使用re等方法
-
保存数据:pipeline中保存数据
-
Scrapy项目实例
目标网站:豆瓣Top250图书 https://book.douban.com/top250
爬取数据:书名、评分、推荐语、链接
步骤如下:
- 创建scrapy项目和爬虫
示例:
scrapy startproject myspider
cd myspider
scrapy genspider douban book.douban.com

返回上一级目录:生成文件树:

生成的文件如下:

douban.py内容如下:

网友评论