Scrapy爬虫框架之下载器中间件（可设置随机请求头和随机代理I

作者: 因为热爱所以执着 | 来源:发表于2018-11-25 18:56 被阅读13次

Scrapy爬虫框架之下载器中间件（可设置随机请求头和随机代理I
Scrapy爬虫框架之下载器中间件（可设置随机请求头和随机代理I
Python爬虫-Scrapy框架之下载器中间件
下载中间件
Scrapy下载中间件
32.scrapy中间件的使用
Python爬虫实战-使用Scrapy框架爬取土巴兔(四)
scrapy 框架爬取某宝某商品信息
scrapy突破反爬的几种方式（二）
scrapy代理的设置

Downloader Middlewares (下载器中间件)

下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、更换请求头等来达到反反爬虫的目的。要写下载器中间件，可以在下载器中实现两个方法。

process_request(self,request,spider)，这个方法是在请求发送之前会执行

process_ response(self ,request,response,spider)，这个方法是数据下载到引擎之前执行

process_ request(self,request,spider):

这个方法是下载器在发送请求之前会执行的。一般可以在这个里面设置随机代理ip等。

1.参数:

request 发送请求的request对象。
spider 发送请求的spider对象。

2.返回值:

返回None :如果返回None, Scrapy将继续处理该request,执行其他中间件中的相应方法，直到合适的下载器处理函数被调用。
返回Response对象: Scrapy将不会调用任何其他的process. request方法，将直接返回这个response对象。

已经激活的中间件的process_ response()方法则会在每个response返回时被调用。

返回Request对象:不再使用之前的request对象去下载数据，而是根据现在返回的request对象返回数据。如果这个方法中抛出了异常，则会调用process. exception方法。

process_response(self,request,response,spider):

这个是下载器下载的数据到引擎中间会执行的方法。

1.参数:

request: request对象。
response:被处理的response对象。
spider: splder对象。

2.返回值:

返回Response对象: 会将这个新的response对象传给其他中间件，最终传给爬虫。
返回Request对象:下载器链被切断，返回的request会重新被下载器调度下载。
如果抛出一个异常，那么调用request的errback 方法，如果没有指定这个方法，那么会抛出一个异常。

随机请求头中间件:

爬虫在频繁访问一个页面的时候，这个请求头如果一直保持一致。那么很容易被服务器发现，从而禁止掉这个请求头的访问。因此我们要在访问这个页面之前随机的更改请求头，这样才可以避免尼虫被抓。随机更改请求头，可以在下载中间件中实现。在请求发送给服务器之前，随机的选择一一个请求头。这样就可以避免总使用一个请求头了。示例代码如下:

1.在middlewares.py里面编写随机请求头中间件

请求头可以去这个网站去找
http://www.useragentstring.com/pages/useragentstring.php?typ=Browser

class UserAgentDownloadMiddleware(object):
    # user-agent 设置随机的请求头中间键
    USER_AGENTS = [
        'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; AS; rv:11.0) like Gecko',
        'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.21pre) Gecko K-Meleon/1.7.0',
        'Mozilla/4.0 (compatible; MSIE 6.0; Windows XP 5.1) Lobo/0.98.4',
        'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.2.28) Gecko/20120410 Firefox/3.6.28 '
    ]

    def process_request(self, request, spider):
        # random.choice()在列表中随机选择一个
        user_agent = random.choice(self.USER_AGENTS)
        request.headers['User-Agent'] = user_agent

写好中间件之后记得要在settings.py调用

DOWNLOADER_MIDDLEWARES = {
   'useragent_demo.middlewares.UserAgentDownloadMiddleware': 543,
}

更多Python实战源码请关注 朝南而行 公众号

朝南而行

上一篇：Scrapy爬虫框架之Request和Response（请求和响应）

Scrapy爬虫框架之下载器中间件（可设置随机请求头和随机代理I
Downloader Middlewares (下载器中间件) 下载器中间件是引擎和下载器之间通信的中间件。在这个...
Scrapy爬虫框架之下载器中间件（可设置随机请求头和随机代理I
Downloader Middlewares (下载器中间件) 下载器中间件是引擎和下载器之间通信的中间件。在这个...
Python爬虫-Scrapy框架之下载器中间件
说明：下载器中间件是引擎和下载器之间通信的中间件，在这个中间件中，我们可以设置代理、更换请求头等来达到反反爬虫...
下载中间件
scrapy下载中间件中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之...
Scrapy下载中间件
下载中间件处于引擎和下载器之间，在发起request请求之前我们可以通过下载中间件设置一些反爬虫的措施，反爬虫措施...
32.scrapy中间件的使用
scrapy中间件的使用学习目标：应用 scrapy中使用间件使用随机UA的方法应用 scrapy中使用代理...
Python爬虫实战-使用Scrapy框架爬取土巴兔(四)
上一篇文章Python爬虫实战-使用Scrapy框架爬取土巴兔(三)我们为爬虫工程添加了下载中间件和IP代理池。接...
scrapy 框架爬取某宝某商品信息
在多次踩坑后，终于写好我的爬虫了，简直要哭晕在厕所了。小白遇到的问题: 第一就是在scrapy框架里设置随机请求...
scrapy突破反爬的几种方式（二）
上回说到设置随机 User-Agent ，这次来一个随机代理 ip 的设置。代理ip 在爬虫中，为了避免网站将我...
scrapy代理的设置
scrapy代理的设置在我的上一篇文章介绍了scrapy下载器中间件的使用,这里的scrapyIP的代理就是用这...

Scrapy爬虫框架之下载器中间件（可设置随机请求头和随机代理I

Downloader Middlewares (下载器中间件)

process_ request(self,request,spider):

process_response(self,request,response,spider):

随机请求头中间件:

相关文章

Scrapy爬虫框架之下载器中间件（可设置随机请求头和随机代理I

Scrapy爬虫框架之下载器中间件（可设置随机请求头和随机代理I

Python爬虫-Scrapy框架之下载器中间件

下载中间件

Scrapy下载中间件

32.scrapy中间件的使用

Python爬虫实战-使用Scrapy框架爬取土巴兔(四)

scrapy 框架爬取某宝某商品信息

scrapy突破反爬的几种方式（二）

scrapy代理的设置

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

烟雨亭

慧园书屋（收༵录༵原༵创༵）

《人生感悟ABC》

诗·烟雨梦

乐山乐水

透视经典

巢湖文海

诗情激荡，自由飞翔