Scrapy学习入门经验

作者: Max之谜 | 来源:发表于2018-01-05 17:10 被阅读0次

Scrapy介绍:
一个python的爬虫框架。允许用户定义自己的spiders(蜘蛛)
特点:
1、 带有异步处理请求功能。
2、 可设置CPU使用率。
流程:


scrapy_architecture.png

Items->Spiders->pipelines
构建->请求->储存

使用说明:
1.先startproject 创建一个项目
-- spiders name 这只蜘蛛的名称
-- 设置allowed_domains 允许蜘蛛爬取的域名范围
-- bash_url 第一个开始的url地址(似乎非必须)

  1. 在Scrapy中的items.py文件中定义储存器
    -- 通过储存器来接受需要保存的数据
    -- 定义储存器的语法:
    ---变量名称=scrapy.field()
    ---如:MaxName=scrapy.field()
    ---其中field()是scrapy的一种类型,还有其他许多类型。目前暂不做介绍
  2. 通过定义一个初始函数start_requests()来发送第一次请求
    --设置请求的url
    --使用yield()来返回数据
    ---Scrapy 自带的Requests(url,callback=function)函数来发生请求,类似python的requests库
    ---callback参数设置回调函数,即请求响应的内容发生给哪里。
  3. 定义一个新的函数,如data_response来接受响应的数据
    --响应函数一定要写在Requests里的callback参数里,语法格式:self.函数名称
    --将需要保存的数据赋值给itme的储存器
    --语法:item['声明变量名称']=值
    ---如:item['MaxName']='马克思之谜'
    -- 使用yield item 来返回item字典
    5.在settings.py里启用ITEM_PIPELINES
    --ITEM_PIPELINES里的数字为优先级,越大优先级越高
    6.编辑pipelines.py
    --这是系统自带的储存通道
    --可此编写储存语句
    --item的字典所有数据都会返回到这个通道里

相关文章

  • Scrapy学习入门经验

    Scrapy介绍:一个python的爬虫框架。允许用户定义自己的spiders(蜘蛛)特点:1、 带有异步处理请求...

  • scrapy小记

    scrapy入门学习地图 scrapy 框架:http://doc.scrapy.org/en/latest/to...

  • 28.scrapy的入门使用

    scrapy的入门使用 学习目标: 掌握 scrapy的安装 应用 创建scrapy的项目 应用 创建scrapy...

  • scrapy 学习日记

    文章出处:【scrapy】学习Scrapy入门 整体结构 引擎(Scrapy Engine),用来处理整个系统的数...

  • Scrapy爬取猫眼电影并存入MongoDB数据库

    之前入门了Scrapy,用Scrapy框架爬取了豆瓣电影TOP250,最近打算学习下scrapy-redis分布式...

  • 【scrapy】学习Scrapy入门

    Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信...

  • scrapy笔记

    1 scrapy的运行原理 参考:Learning Scrapy笔记(三)- Scrapy基础Scrapy爬虫入门...

  • Scrapy入门案例

    Scrapy入门案例 Scrapy教程: 官方 《Scrapy 1.5 documentation》 中文 《S...

  • Scrapy入门学习

    简介 采用异步框架。scrapy中文文档:https://scrapy-chs.readthedocs.io/zh...

  • 学习Scrapy入门

    Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化...

网友评论

    本文标题:Scrapy学习入门经验

    本文链接:https://www.haomeiwen.com/subject/zzjsnxtx.html