Scrapy学习入门经验

作者: Max之谜 | 来源:发表于2018-01-05 17:10 被阅读0次

    Scrapy介绍:
    一个python的爬虫框架。允许用户定义自己的spiders(蜘蛛)
    特点:
    1、 带有异步处理请求功能。
    2、 可设置CPU使用率。
    流程:


    scrapy_architecture.png

    Items->Spiders->pipelines
    构建->请求->储存

    使用说明:
    1.先startproject 创建一个项目
    -- spiders name 这只蜘蛛的名称
    -- 设置allowed_domains 允许蜘蛛爬取的域名范围
    -- bash_url 第一个开始的url地址(似乎非必须)

    1. 在Scrapy中的items.py文件中定义储存器
      -- 通过储存器来接受需要保存的数据
      -- 定义储存器的语法:
      ---变量名称=scrapy.field()
      ---如:MaxName=scrapy.field()
      ---其中field()是scrapy的一种类型,还有其他许多类型。目前暂不做介绍
    2. 通过定义一个初始函数start_requests()来发送第一次请求
      --设置请求的url
      --使用yield()来返回数据
      ---Scrapy 自带的Requests(url,callback=function)函数来发生请求,类似python的requests库
      ---callback参数设置回调函数,即请求响应的内容发生给哪里。
    3. 定义一个新的函数,如data_response来接受响应的数据
      --响应函数一定要写在Requests里的callback参数里,语法格式:self.函数名称
      --将需要保存的数据赋值给itme的储存器
      --语法:item['声明变量名称']=值
      ---如:item['MaxName']='马克思之谜'
      -- 使用yield item 来返回item字典
      5.在settings.py里启用ITEM_PIPELINES
      --ITEM_PIPELINES里的数字为优先级,越大优先级越高
      6.编辑pipelines.py
      --这是系统自带的储存通道
      --可此编写储存语句
      --item的字典所有数据都会返回到这个通道里

    相关文章

      网友评论

        本文标题:Scrapy学习入门经验

        本文链接:https://www.haomeiwen.com/subject/zzjsnxtx.html