scrapy框架的几大模块:
Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,
Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),
Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.
创建爬虫项目:
scrapy startproject 爬虫项目名称
生成项目文件:
scrapy genspider qidian qidian.com
scrapy genspider -t crawl ziru ziroom.com(通用爬虫)
运行项目:
在项目中spiders文件中 运行scrapy crawl 项目名称(不加后缀)
目前对于学习框架出现的问题:
对于框架的操作,爬取数据基本上没问题,可能对于复杂的接口寻找URL比较费劲,还有对mogdb数据库操作不熟悉,数据存到mogdb数据库不会使用,对于管道不是很理解写法。
网友评论