1. Scrapy框架
如下图所示,Scrapy构架由五大组件(SPIDERS,ENGINE,SCHEDULER,DOWNLOADER,ITEM PIPELINES),两个中间件(SPIDERS到ENGINE,ENGINE到DOWNLOADER),三条数据流组成(①②,③④⑤⑥,⑦⑧),我们在使用时一般只需要通过genspider命令创建spider并编写处理逻辑,然后在pipelines里面对数据进行处理存储即可。

2. 爬取股票信息
GitHub地址:https://github.com/Acamy/BaiduStocks
- 创建工程和spider文件
scrapy startproject BaiduStocks
cd BaiduStocks
scrapy genspider stocks baidu.com
-
编写spider
stocks.py
-
编写Pipelines
pipelines.py
4.配置settings.py

- 运行spider
scrapy crawl stocks

网友评论