Downloader Middlewares (下载器中间件)
下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、更换请求头等来达到反反爬虫的目的。要写下载器中间件,可以在下载器中实现两个方法。
process_request(self,request,spider)
,这个方法是在请求发送之前
会执行
process_ response(self ,request,response,spider)
,这个方法是数据下载到引擎之前执行
process_ request(self,request,spider):
这个方法是下载器在发送请求之前会执行的。一般可以在这个里面设置随机代理ip等。
1.参数:
-
request
发送请求的request对象。 -
spider
发送请求的spider对象。
2.返回值:
-
返回
None
:如果返回None, Scrapy将 继续处理该request
,执行其他中间件中的相应方法,直到合适的下载器处理函数被调用。 -
返回
Response
对象: Scrapy将不会调用任何其他的process. request
方法,将直接返回这个response
对象。
已经激活的中间件的process_ response()
方法则会在每个response返回时被调用。
- 返回
Request
对象:不再使用之前的request
对象去下载数据,而是根据现在返回的request
对象返回数据。如果这个方法中抛出了异常,则会调用process. exception
方法。
process_response(self,request,response,spider):
这个是下载器下载的数据到引擎中间会执行的方法。
1.参数:
-
request
: request对象。 -
response
:被处理的response对象。 -
spider
: splder对象。
2.返回值:
-
返回
Response
对象: 会将这个新的response
对象传给其他中间件,最终传给爬虫。 -
返回
Request
对象:下载器链被切断,返回的request
会重新被下载器调度下载。 -
如果抛出一个异常,那么调用request的errback 方法,如果没有指定这个方法,那么会抛出一个异常。
随机请求头中间件:
爬虫在频繁访问一个页面的时候,这个请求头如果一直保持一致。那么很容易被服务器发现,从而禁止掉这个请求头的访问。因此我们要在访问这个页面之前随机的更改请求头,这样才可以避免尼虫被抓。随机更改请求头,可以在下载中间件中实现。在请求发送给服务器之前,随机的选择一一个请求头。这样就可以避免总使用一个请求头了。示例代码如下:
1.在middlewares.py
里面编写随机请求头中间件
请求头可以去这个网站去找
http://www.useragentstring.com/pages/useragentstring.php?typ=Browser
class UserAgentDownloadMiddleware(object):
# user-agent 设置随机的请求头中间键
USER_AGENTS = [
'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1',
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.1',
'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; AS; rv:11.0) like Gecko',
'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.21pre) Gecko K-Meleon/1.7.0',
'Mozilla/4.0 (compatible; MSIE 6.0; Windows XP 5.1) Lobo/0.98.4',
'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.2.28) Gecko/20120410 Firefox/3.6.28 '
]
def process_request(self, request, spider):
# random.choice()在列表中随机选择一个
user_agent = random.choice(self.USER_AGENTS)
request.headers['User-Agent'] = user_agent
- 写好中间件之后记得要在
settings.py
调用
DOWNLOADER_MIDDLEWARES = {
'useragent_demo.middlewares.UserAgentDownloadMiddleware': 543,
}
更多Python实战源码请关注 朝南而行 公众号
朝南而行
网友评论