美文网首页
Spider基础

Spider基础

作者: 山高路远_海深不蓝 | 来源:发表于2018-11-12 10:09 被阅读0次

    scrapy

    scrapy架构

    image.png

    框架解读

    • 1.Scrapy Engine:

    引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件,此组件相当于爬虫的“大脑”,是整个爬虫的调度中心。

    • 2.调度器(Scheduler):

    调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。
    初始的爬取URL和后续在页面中获取的待爬取的URL将放入调度器中,等待爬取。同时调度器会自动去除重复的URL(如果特定的URL不需要去重也可以通过设置实现,如post请求的URL)

    • 3.下载器(Downloader):

    下载器负责获取页面数据并提供给引擎,而后提供给spider。

    • 4.Spiders:

    Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。

    • 5.Item Pipeline:

    Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存取到数据库中)

    • 6.下载器中间件(Downloader middlewares):

    下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能
    通过设置下载器中间件可以实现爬虫自动更换user-agent、IP等功能。

    • 7.Spider中间件(Spider middlewares):

    Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。
    其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。

    简单应用

    1.创建工程(Terminal命令行模式下)

    • 1.1 创建工程目录

    > scrapy startproject tutorial
    创建的文件目录结构如下

    tutorial/
        scrapy.cfg
        tutorial/
            __init__.py
            items.py
            pipelines.py
            settings.py
            spiders/
                __init__.py
                ...
    

    文件说明


    • tutorial/spiders/: 放置spider代码的目录.
    • tutorial/: 该项目的python模块。之后您将在此加入代码。
    • tutorial/items.py: 项目中的item文件.
    • tutorial/pipelines.py: 项目中的pipelines文件.
    • tutorial/settings.py: 项目的设置文件.
    • scrapy.cfg: 项目的配置文件

    *1. 2 进入tutorial文件夹中

    > cd tutorial

    • 1.3 创建爬虫

    > scrapy genspider sipder1 www.mm131.com

    • 1.4 目录结构
    image.png

    文件解读

    • 1.spiders/spider1.py

    scrapy框架中的spiders(爬虫),用于分析response和提取获取到的item

    • 2.items.py

    用于定义items的数据字段,以便于在pipeline中进行数据清洗

    • 3.middlewares.py

    包含Downloader middlewares和Spider middlewares,可以设置自动更换user-agent、IP等功能或扩展Scrapy功能

    • 4.pipeline.py

    数据处理管道,将spiders提取出来的item进行清理、 验证及持久化(例如存取到数据库中

    • 5.settings.py

    爬虫项目的设置文件,如ROBOTS协议,管道的开通等

    2.定义Item

    • Item 是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

    例如获取名字,url,以及网站的描述。 对此,在item中定义相应的字段。
    编辑 tutorial 目录中的 items.py 文件:

    import scrapy
    
    class DmozItem(scrapy.Item):
        title = scrapy.Field()
        link = scrapy.Field()
        desc = scrapy.Field()
    

    3.编辑爬虫

    • 创建一个Spider,必须继承 scrapy.Spider类,且定义以下三个属性:

    name: 用于区别Spider。该名字必须是唯一。
    start_urls: 包含了Spider在启动时进行爬取的url列表。第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
    parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

    import scrapy
    
    class DmozSpider(scrapy.spiders.Spider):
        name = "dmoz"
        allowed_domains = ["www.mycodes.net"]
        start_urls = [
            "http://www.mycodes.net/1",
            "http://www.mycodes.net/3",
        ]
    
        def parse(self, response):
            filename = response.url.split("//")[-1].replace('/', '_')
            print(''.center(30, '*'))
            print(filename)
            with open(filename+'.txt', 'wb') as f:
                f.write(response.body)
    
    • 启动爬虫 > scrapy crawl dmoz

    此时会在tutorial中创建两个文件www.mycodes.net_1_.txtwww.mycodes.net_3_.txt,文件中的内容为获取到的网页文本。
    运行机制:
    Scrapy为Spider的 start_urls 属性中的每个URL创建了 scrapy.Request 对象,并将 parse 方法作为回调函数(callback)赋值给了Request。
    Request对象经过调度,执行生成 scrapy.http.Response 对象并送回给spider parse() 方法。

    4.选择器

    Selector有四个基本的方法(详细教程请参考文档尾的Scrapy入门教程):

    • xpath(): 传入xpath表达式,返回该表达式所对应的所有节点的selector list列表 。
    • css(): 传入CSS表达式,返回该表达式所对应的所有节点的selector list列表.
    • extract(): 序列化该节点为unicode字符串并返回list。
    • re(): 根据传入的正则表达式对数据进行提取,返回unicode字符串list列表。

    xpath语法

    • 简单应用: title = response.xpath('//div[@class="logo"]/a/img/@alt')

    5.数据提取

    • HTML源码: response.body 可以通过浏览器来检查代码,直接使用body查看是不明智的
    • response的包头: response.headers

    xpath基础语法

    Tip: xpath查询的结果为列表类型的数据;使用extract()目的是序列化结果为Unicode

    • 查找class为logo的元素的img的src属性
      response.xpath('//div[@class="logo"]/img/@src').extract()
    • 查找目标标签的文本
      response.xpath('//div[@class="logo"]/a/text()').extract()
    • 支持路径拼接
    for sel in response.xpath('//ul/li'):
        title = sel.xpath('a/text()').extract()
        link = sel.xpath('a/@href').extract()
        desc = sel.xpath('text()').extract()
        print title, link, desc
    

    参考

    issue

    • 运行爬虫时报 No module named 'win32api'

    安装依赖包: pip install pypiwin32

    相关文章

      网友评论

          本文标题:Spider基础

          本文链接:https://www.haomeiwen.com/subject/bhsqfqtx.html