美文网首页
scrapy框架

scrapy框架

作者: 夜微凉_f32f | 来源:发表于2018-11-01 20:30 被阅读0次

    scrapy框架的几大模块:

    Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
    Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
    Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,
    Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),
    Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.

    创建爬虫项目:

    scrapy startproject 爬虫项目名称
    生成项目文件:
    scrapy genspider qidian qidian.com
    scrapy genspider -t crawl ziru ziroom.com(通用爬虫)

    运行项目:

    在项目中spiders文件中 运行scrapy crawl 项目名称(不加后缀)

    目前对于学习框架出现的问题:

    对于框架的操作,爬取数据基本上没问题,可能对于复杂的接口寻找URL比较费劲,还有对mogdb数据库操作不熟悉,数据存到mogdb数据库不会使用,对于管道不是很理解写法。

    相关文章

      网友评论

          本文标题:scrapy框架

          本文链接:https://www.haomeiwen.com/subject/lttfxqtx.html