美文网首页
【爬虫】-012-Scrapy-内置爬虫介绍

【爬虫】-012-Scrapy-内置爬虫介绍

作者: 9756a8680596 | 来源:发表于2019-03-11 00:31 被阅读1次

内置爬虫简单介绍

首先,来了解下Scrapy中有哪些内置的爬虫。这个可以通过命令 scrapy genspider -l来查看内置爬虫模版类型,如下图。

available templates
  • basic:最基础的爬虫,是前面介绍过的
  • crawl:爬取有规律的网站内容
  • csvfeed:爬取csv格式内容
  • xmlfeed:爬取xml格式内容

接下来主要介绍crawl爬虫及其与basic 的区别。

basiccrawl 区别

  • 首先,通过命令来创建crawl爬虫:scrapy genspider -t 模板名 爬虫名 目标网站 ,具体来说就是: scrapy genspider -t crawl ganji2 ganji.com

  • 接下来,在IDE中查看创建的爬虫文件 crawl 爬虫模板
  • 爬虫类及其名称均被创建成功,与basic 模板不同的是,顶部引用的库、rules属性 以及爬虫函数 parse_item

  • rules属性主要作用是通过正则对需要爬取的链接进行规则匹配,然后放到回调函数中获取数据。

  • 爬虫函数 parse_itembasic 中的parse不同。 由于 CrawlSpider 使用 parse 方法来实现其逻辑,如果 您覆盖了 parse 方法,CrawlSpider将会运行失败。所以,爬虫函数通过parse_item实现

  • parse函数原理大致如下:在CrawlSpider中被用于分析链接,得到response,再通过rules属性去重;其中的Rule方法,对response匹配正则表达式命中的链接,对命中的链接使用对应的回调函数爬取数据。

  • parse函数在basic 中通过下载器下载规定的地址,得到response,然后回调到parse函数中;此时的parse需要自己写爬取xpath路径和回调规则,通过不断新建函数从开始链接获取什么样的数据。

CrawlSpider运行机制

image.png

相关文章

  • 【爬虫】-012-Scrapy-内置爬虫介绍

    内置爬虫简单介绍 首先,来了解下Scrapy中有哪些内置的爬虫。这个可以通过命令 scrapy genspider...

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • Python网络爬虫

    Python开发简单爬虫(Python2.X版本,Eclipse工具) 一、爬虫介绍 爬虫调度端:启动、停止爬虫,...

  • CNN大战验证码

    介绍   爬虫江湖,风云再起。自从有了爬虫,也就有了反爬虫;自从有了反爬虫,也就有了反反爬虫。  反爬虫界的一大利...

  • Python爬虫|使用urllib库爬取百度新闻首页的标题信息

    1 urllib爬虫库介绍 Python内置HTTP请求库,不需要额外安装 官方链接:https://docs.p...

  • scrapy与scrapy-redis的使用(一)-基础

    爬虫框架scrapy 介绍scrapy这个爬虫框架的Spider(爬虫器)、Scheduler(调度器)、Down...

  • Go开发的分布式爬虫框架 yispider

    yispider一款分布式爬虫平台,帮助你更好的管理和开发爬虫。内置一套爬虫定义规则(模版),可使用模版快速定义爬...

  • http与https网络请求

    1.爬虫介绍 爬虫spider,获取数据的一种方式,根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. ...

网友评论

      本文标题:【爬虫】-012-Scrapy-内置爬虫介绍

      本文链接:https://www.haomeiwen.com/subject/ssumpqtx.html