scrapy
scrapy架构
image.png框架解读
- 1.Scrapy Engine:
引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件,此组件相当于爬虫的“大脑”,是整个爬虫的调度中心。
- 2.调度器(Scheduler):
调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。
初始的爬取URL和后续在页面中获取的待爬取的URL将放入调度器中,等待爬取。同时调度器会自动去除重复的URL(如果特定的URL不需要去重也可以通过设置实现,如post请求的URL)
- 3.下载器(Downloader):
下载器负责获取页面数据并提供给引擎,而后提供给spider。
- 4.Spiders:
Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。
- 5.Item Pipeline:
Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存取到数据库中)
- 6.下载器中间件(Downloader middlewares):
下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能
通过设置下载器中间件可以实现爬虫自动更换user-agent、IP等功能。
- 7.Spider中间件(Spider middlewares):
Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。
其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。
简单应用
1.创建工程(Terminal命令行模式下)
- 1.1 创建工程目录
> scrapy startproject tutorial
创建的文件目录结构如下
tutorial/
scrapy.cfg
tutorial/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...
文件说明
- tutorial/spiders/: 放置spider代码的目录.
- tutorial/: 该项目的python模块。之后您将在此加入代码。
- tutorial/items.py: 项目中的item文件.
- tutorial/pipelines.py: 项目中的pipelines文件.
- tutorial/settings.py: 项目的设置文件.
- scrapy.cfg: 项目的配置文件
*1. 2 进入tutorial文件夹中
> cd tutorial
- 1.3 创建爬虫
> scrapy genspider sipder1 www.mm131.com
- 1.4 目录结构
文件解读
- 1.spiders/spider1.py
scrapy框架中的spiders(爬虫),用于分析response和提取获取到的item
- 2.items.py
用于定义items的数据字段,以便于在pipeline中进行数据清洗
- 3.middlewares.py
包含Downloader middlewares和Spider middlewares,可以设置自动更换user-agent、IP等功能或扩展Scrapy功能
- 4.pipeline.py
数据处理管道,将spiders提取出来的item进行清理、 验证及持久化(例如存取到数据库中
- 5.settings.py
爬虫项目的设置文件,如ROBOTS协议,管道的开通等
2.定义Item
- Item 是保存爬取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。
例如获取名字,url,以及网站的描述。 对此,在item中定义相应的字段。
编辑 tutorial 目录中的 items.py 文件:
import scrapy
class DmozItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()
3.编辑爬虫
- 创建一个Spider,必须继承 scrapy.Spider类,且定义以下三个属性:
name: 用于区别Spider。该名字必须是唯一。
start_urls: 包含了Spider在启动时进行爬取的url列表。第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。
parse() 是spider的一个方法。 被调用时,每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。
import scrapy
class DmozSpider(scrapy.spiders.Spider):
name = "dmoz"
allowed_domains = ["www.mycodes.net"]
start_urls = [
"http://www.mycodes.net/1",
"http://www.mycodes.net/3",
]
def parse(self, response):
filename = response.url.split("//")[-1].replace('/', '_')
print(''.center(30, '*'))
print(filename)
with open(filename+'.txt', 'wb') as f:
f.write(response.body)
- 启动爬虫
> scrapy crawl dmoz
此时会在tutorial中创建两个文件www.mycodes.net_1_.txt和www.mycodes.net_3_.txt,文件中的内容为获取到的网页文本。
运行机制:
Scrapy为Spider的 start_urls 属性中的每个URL创建了 scrapy.Request 对象,并将 parse 方法作为回调函数(callback)赋值给了Request。
Request对象经过调度,执行生成 scrapy.http.Response 对象并送回给spider parse() 方法。
4.选择器
Selector有四个基本的方法(详细教程请参考文档尾的Scrapy入门教程):
- xpath(): 传入xpath表达式,返回该表达式所对应的所有节点的selector list列表 。
- css(): 传入CSS表达式,返回该表达式所对应的所有节点的selector list列表.
- extract(): 序列化该节点为unicode字符串并返回list。
- re(): 根据传入的正则表达式对数据进行提取,返回unicode字符串list列表。
- 简单应用:
title = response.xpath('//div[@class="logo"]/a/img/@alt')
5.数据提取
- HTML源码:
response.body
可以通过浏览器来检查代码,直接使用body查看是不明智的 - response的包头:
response.headers
xpath基础语法
Tip: xpath查询的结果为列表类型的数据;使用extract()目的是序列化结果为Unicode
- 查找class为logo的元素的img的src属性
response.xpath('//div[@class="logo"]/img/@src').extract()
- 查找目标标签的文本
response.xpath('//div[@class="logo"]/a/text()').extract()
- 支持路径拼接
for sel in response.xpath('//ul/li'):
title = sel.xpath('a/text()').extract()
link = sel.xpath('a/@href').extract()
desc = sel.xpath('text()').extract()
print title, link, desc
参考
issue
- 运行爬虫时报
No module named 'win32api'
安装依赖包:
pip install pypiwin32
网友评论