1. Scrapy框架
如下图所示,Scrapy构架由五大组件(SPIDERS,ENGINE,SCHEDULER,DOWNLOADER,ITEM PIPELINES),两个中间件(SPIDERS到ENGINE,ENGINE到DOWNLOADER),三条数据流组成(①②,③④⑤⑥,⑦⑧),我们在使用时一般只需要通过genspider命令创建spider并编写处理逻辑,然后在pipelines里面对数据进行处理存储即可。
Scrapy框架
2. 爬取股票信息
GitHub地址:https://github.com/Acamy/BaiduStocks
- 创建工程和spider文件
scrapy startproject BaiduStocks
cd BaiduStocks
scrapy genspider stocks baidu.com
-
编写spider
stocks.py -
编写Pipelines
pipelines.py
4.配置settings.py
settings.py
- 运行spider
scrapy crawl stocks
运行效果
网友评论