美文网首页
Spider基础

Spider基础

作者: 山高路远_海深不蓝 | 来源:发表于2018-11-12 10:09 被阅读0次

scrapy

scrapy架构

image.png

框架解读

  • 1.Scrapy Engine:

引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件,此组件相当于爬虫的“大脑”,是整个爬虫的调度中心。

  • 2.调度器(Scheduler):

调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。
初始的爬取URL和后续在页面中获取的待爬取的URL将放入调度器中,等待爬取。同时调度器会自动去除重复的URL(如果特定的URL不需要去重也可以通过设置实现,如post请求的URL)

  • 3.下载器(Downloader):

下载器负责获取页面数据并提供给引擎,而后提供给spider。

  • 4.Spiders:

Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。

  • 5.Item Pipeline:

Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存取到数据库中)

  • 6.下载器中间件(Downloader middlewares):

下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能
通过设置下载器中间件可以实现爬虫自动更换user-agent、IP等功能。

  • 7.Spider中间件(Spider middlewares):

Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。
其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。

简单应用

1.创建工程(Terminal命令行模式下)

  • 1.1 创建工程目录

> scrapy startproject tutorial
创建的文件目录结构如下

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

文件说明


  • tutorial/spiders/: 放置spider代码的目录.
  • tutorial/: 该项目的python模块。之后您将在此加入代码。
  • tutorial/items.py: 项目中的item文件.
  • tutorial/pipelines.py: 项目中的pipelines文件.
  • tutorial/settings.py: 项目的设置文件.
  • scrapy.cfg: 项目的配置文件

*1. 2 进入tutorial文件夹中

> cd tutorial

  • 1.3 创建爬虫

> scrapy genspider sipder1 www.mm131.com

  • 1.4 目录结构
image.png

文件解读

  • 1.spiders/spider1.py

scrapy框架中的spiders(爬虫),用于分析response和提取获取到的item

  • 2.items.py

用于定义items的数据字段,以便于在pipeline中进行数据清洗

  • 3.middlewares.py

包含Downloader middlewares和Spider middlewares,可以设置自动更换user-agent、IP等功能或扩展Scrapy功能

  • 4.pipeline.py

数据处理管道,将spiders提取出来的item进行清理、 验证及持久化(例如存取到数据库中

  • 5.settings.py

爬虫项目的设置文件,如ROBOTS协议,管道的开通等

2.定义Item

  • Item 是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

例如获取名字,url,以及网站的描述。 对此,在item中定义相应的字段。
编辑 tutorial 目录中的 items.py 文件:

import scrapy

class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

3.编辑爬虫

  • 创建一个Spider,必须继承 scrapy.Spider类,且定义以下三个属性:

name: 用于区别Spider。该名字必须是唯一。
start_urls: 包含了Spider在启动时进行爬取的url列表。第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

import scrapy

class DmozSpider(scrapy.spiders.Spider):
    name = "dmoz"
    allowed_domains = ["www.mycodes.net"]
    start_urls = [
        "http://www.mycodes.net/1",
        "http://www.mycodes.net/3",
    ]

    def parse(self, response):
        filename = response.url.split("//")[-1].replace('/', '_')
        print(''.center(30, '*'))
        print(filename)
        with open(filename+'.txt', 'wb') as f:
            f.write(response.body)
  • 启动爬虫 > scrapy crawl dmoz

此时会在tutorial中创建两个文件www.mycodes.net_1_.txtwww.mycodes.net_3_.txt,文件中的内容为获取到的网页文本。
运行机制:
Scrapy为Spider的 start_urls 属性中的每个URL创建了 scrapy.Request 对象,并将 parse 方法作为回调函数(callback)赋值给了Request。
Request对象经过调度,执行生成 scrapy.http.Response 对象并送回给spider parse() 方法。

4.选择器

Selector有四个基本的方法(详细教程请参考文档尾的Scrapy入门教程):

  • xpath(): 传入xpath表达式,返回该表达式所对应的所有节点的selector list列表 。
  • css(): 传入CSS表达式,返回该表达式所对应的所有节点的selector list列表.
  • extract(): 序列化该节点为unicode字符串并返回list。
  • re(): 根据传入的正则表达式对数据进行提取,返回unicode字符串list列表。

xpath语法

  • 简单应用: title = response.xpath('//div[@class="logo"]/a/img/@alt')

5.数据提取

  • HTML源码: response.body 可以通过浏览器来检查代码,直接使用body查看是不明智的
  • response的包头: response.headers

xpath基础语法

Tip: xpath查询的结果为列表类型的数据;使用extract()目的是序列化结果为Unicode

  • 查找class为logo的元素的img的src属性
    response.xpath('//div[@class="logo"]/img/@src').extract()
  • 查找目标标签的文本
    response.xpath('//div[@class="logo"]/a/text()').extract()
  • 支持路径拼接
for sel in response.xpath('//ul/li'):
    title = sel.xpath('a/text()').extract()
    link = sel.xpath('a/@href').extract()
    desc = sel.xpath('text()').extract()
    print title, link, desc

参考

issue

  • 运行爬虫时报 No module named 'win32api'

安装依赖包: pip install pypiwin32

相关文章

  • Spider基础

    scrapy scrapy架构 框架解读 1.Scrapy Engine: 引擎负责控制数据流在系统中所有组件中流...

  • (二)爬虫框架(3)——CrawlSpiders是什么鬼

    CrawlSpider是在spider.Spider基础之上封装的一个类,添加了一些功能。 在Spider中需要把...

  • Scrapy基础——CrawlSpider详解

    写在前面 在Scrapy基础——Spider中,我简要地说了一下Spider类。Spider基本上能做很多事情了,...

  • Scrapy基础——Spider

    写在前面 这是Scrapy学习的基础部分,大部分内容来自于官方文档的个人解读,不太适合那些想在30分钟以内学会Sc...

  • Spider基础之XPath

    学习自刘大拿的Python课程 XPath 在XML文件中查找信息的一套规则/语言,根据XML的元素或者属性进行遍...

  • 在scrapy的每个spider中设置独立的日志文件

    在spider中设置该spider的独立日志文件 spider1.py spider2.py

  • Spider基础之网络编程

    学习自刘大拿的Python课程 网络编程 网络编程 网络协议: 一套规则 网络模型:七层模型-理论模型:任务分块,...

  • Spider基础之http协议

    学习自刘大拿的Python课程 1 HTTP简介 超文本 URL HTTP 1.1 超文本 Hyper Tex...

  • scrapy.Spider

    Spider是最简单的spider。每个其他的spider必须继承自该类(包括Scrapy自带的其他spider以...

  • 无标题文章

    获取给定的URL并使用相应的spider分析处理。 --spider=SPIDER: 跳过自动检测spider并强...

网友评论

      本文标题:Spider基础

      本文链接:https://www.haomeiwen.com/subject/bhsqfqtx.html