Spider基础

作者: 山高路远_海深不蓝 | 来源:发表于2018-11-12 10:09 被阅读0次

Spider基础
（二）爬虫框架(3)——CrawlSpiders是什么鬼
Scrapy基础——CrawlSpider详解
Scrapy基础——Spider
Spider基础之XPath
在scrapy的每个spider中设置独立的日志文件
Spider基础之网络编程
Spider基础之http协议
scrapy.Spider
无标题文章

scrapy

scrapy架构

image.png

框架解读

1.Scrapy Engine：

引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件，此组件相当于爬虫的“大脑”，是整个爬虫的调度中心。

2.调度器(Scheduler):

调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。
初始的爬取URL和后续在页面中获取的待爬取的URL将放入调度器中，等待爬取。同时调度器会自动去除重复的URL（如果特定的URL不需要去重也可以通过设置实现，如post请求的URL）

3.下载器(Downloader):

下载器负责获取页面数据并提供给引擎，而后提供给spider。

4.Spiders:

Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。

5.Item Pipeline:

Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)

6.下载器中间件(Downloader middlewares):

下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能
通过设置下载器中间件可以实现爬虫自动更换user-agent、IP等功能。

7.Spider中间件(Spider middlewares):

Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。
其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

简单应用

1.创建工程(Terminal命令行模式下)

> scrapy startproject tutorial
创建的文件目录结构如下

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

文件说明

tutorial/spiders/: 放置spider代码的目录.
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
scrapy.cfg: 项目的配置文件

*1. 2 进入tutorial文件夹中

> cd tutorial

1.3 创建爬虫

> scrapy genspider sipder1 www.mm131.com

image.png

文件解读

1.spiders/spider1.py

scrapy框架中的spiders(爬虫),用于分析response和提取获取到的item

2.items.py

用于定义items的数据字段,以便于在pipeline中进行数据清洗

3.middlewares.py

包含Downloader middlewares和Spider middlewares,可以设置自动更换user-agent、IP等功能或扩展Scrapy功能

4.pipeline.py

数据处理管道,将spiders提取出来的item进行清理、验证及持久化(例如存取到数据库中

5.settings.py

爬虫项目的设置文件,如ROBOTS协议,管道的开通等

2.定义Item

Item 是保存爬取到的数据的容器；其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

例如获取名字，url，以及网站的描述。对此，在item中定义相应的字段。
编辑 tutorial 目录中的 items.py 文件:

import scrapy

class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

3.编辑爬虫

创建一个Spider，必须继承 scrapy.Spider类,且定义以下三个属性:

name: 用于区别Spider。该名字必须是唯一。
start_urls: 包含了Spider在启动时进行爬取的url列表。第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
parse() 是spider的一个方法。被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

import scrapy

class DmozSpider(scrapy.spiders.Spider):
    name = "dmoz"
    allowed_domains = ["www.mycodes.net"]
    start_urls = [
        "http://www.mycodes.net/1",
        "http://www.mycodes.net/3",
    ]

    def parse(self, response):
        filename = response.url.split("//")[-1].replace('/', '_')
        print(''.center(30, '*'))
        print(filename)
        with open(filename+'.txt', 'wb') as f:
            f.write(response.body)

启动爬虫 > scrapy crawl dmoz

此时会在tutorial中创建两个文件www.mycodes.net_1_.txt和www.mycodes.net_3_.txt,文件中的内容为获取到的网页文本。
运行机制：
Scrapy为Spider的 start_urls 属性中的每个URL创建了 scrapy.Request 对象，并将 parse 方法作为回调函数(callback)赋值给了Request。
Request对象经过调度，执行生成 scrapy.http.Response 对象并送回给spider parse() 方法。

4.选择器

Selector有四个基本的方法(详细教程请参考文档尾的Scrapy入门教程):

xpath(): 传入xpath表达式，返回该表达式所对应的所有节点的selector list列表。
css(): 传入CSS表达式，返回该表达式所对应的所有节点的selector list列表.
extract(): 序列化该节点为unicode字符串并返回list。
re(): 根据传入的正则表达式对数据进行提取，返回unicode字符串list列表。

xpath语法

简单应用: title = response.xpath('//div[@class="logo"]/a/img/@alt')

5.数据提取

HTML源码: response.body 可以通过浏览器来检查代码,直接使用body查看是不明智的
response的包头: response.headers

xpath基础语法

Tip: xpath查询的结果为列表类型的数据;使用extract()目的是序列化结果为Unicode

查找class为logo的元素的img的src属性
response.xpath('//div[@class="logo"]/img/@src').extract()
查找目标标签的文本
response.xpath('//div[@class="logo"]/a/text()').extract()
支持路径拼接

for sel in response.xpath('//ul/li'):
    title = sel.xpath('a/text()').extract()
    link = sel.xpath('a/@href').extract()
    desc = sel.xpath('text()').extract()
    print title, link, desc

参考

issue

运行爬虫时报 No module named 'win32api'

安装依赖包: pip install pypiwin32

网友评论

本文标题：Spider基础

本文链接：https://www.haomeiwen.com/subject/bhsqfqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Spider基础

scrapy

scrapy架构

框架解读

简单应用

1.创建工程(Terminal命令行模式下)

文件说明

文件解读

2.定义Item

3.编辑爬虫

4.选择器

5.数据提取

xpath基础语法

参考

issue

相关文章

Spider基础

（二）爬虫框架(3)——CrawlSpiders是什么鬼

Scrapy基础——CrawlSpider详解

Scrapy基础——Spider

Spider基础之XPath

在scrapy的每个spider中设置独立的日志文件

Spider基础之网络编程

Spider基础之http协议

scrapy.Spider

无标题文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读