Scrapy的中间件(Middleware)反爬虫设置

Scrapy的中间件(Middleware)反爬虫设置

作者: 眼君 | 来源:发表于2017-08-23 14:20 被阅读232次

Scrapy的中间件(Middleware)反爬虫设置
python3的爬虫笔记18——Download Middlew
中间件的开发
Spider中间件
scrapy下载中间件
Scrapy下载中间件
python scrapy
纯纯的爬虫知识，python scrapy 下载中间件知多少
一行代码搞定 Scrapy 随机 User-Agent 设置
Scrapy爬虫教程五爬虫部署

知乎登录逻辑

1.创建spider脚本：

使用命令以base为模版创建一个spider文件

>>>scrapy genspider zhihu www.zhihu.com

2.重写start_requests:

start_requests方法是spider处理start_urls的入口，即处理start_urls的第一个方法，我们让他访问页面，并回调到下一个函数login处理登录过程：

重写start_requests

3.处理登录过程：

在方法start_requests的回调方法login中，使用FormRequest类传入参数模拟浏览器的POST访问：

处理登录过程

当然我们也可以给login添加一个回调方法用于验证登录是否成功：

回调验证

当然，我们不要忘了重写start_requests后，他最终处理URL的执行结果必须和源码保持一致

start_url的源码

回归一致

当然，查看make_requests_from_url方法的源码后，我们发现也可以这样重写最后一步

make_requests_from_url方法的源码

重写check_login,这样写就可以给Request添加一些参数，例如headers

start_request出口的另一种写法

配置DOWNLOADER_MIDDLEWARES

打开settings.py,找到已被注释掉的downloader_middlewares:

downloader_middlewares

设置User-Agent：

使用scrapy的downloader_middlewares自带的组件可以完成配置，源码如下：

downloader_middlewares

源码的方法会将每一个爬虫的user-agent值替换成settings.py中设置的USER_AGENT值，我们打开settings.py并添加USER_AGENT值,然后将对应的类权限先设为None,然后重写它。

settings.py

之后，我们在middlewares中创建一个类：

相关文章

Scrapy的中间件(Middleware)反爬虫设置
知乎登录逻辑 1.创建spider脚本：使用命令以base为模版创建一个spider文件 >>>scrapy g...
python3的爬虫笔记18——Download Middlew
Download Middleware（下载中间件） Download Middleware是Scrapy的请求/...
中间件的开发
Scrapy有两种中间件，Downloader Middleware和Spider Middleware。我们来讲...
Spider中间件
scrapy提供了两种中间件，下载中间件（Downloader Middleware）和Spider中间件（Spi...
scrapy下载中间件
scrapy提供了两种中间件，下载中间件（Downloader Middleware）和Spider中间件（Spi...
Scrapy下载中间件
下载中间件处于引擎和下载器之间，在发起request请求之前我们可以通过下载中间件设置一些反爬虫的措施，反爬虫措施...
python scrapy
pipspider scrapy命令 middleware中间件 item Item提供了类字典的API，并且可以...
纯纯的爬虫知识，python scrapy 下载中间件知多少
这篇博客咱们聊聊 scrapy 中的 Downloader Middleware ，即下载中间件相关知识。 Dow...
一行代码搞定 Scrapy 随机 User-Agent 设置
摘要：爬虫过程中的反爬措施非常重要，其中设置随机 User-Agent 是一项重要的反爬措施，Scrapy 中设置...
Scrapy爬虫教程五爬虫部署
Scrapy爬虫教程一 Windows下安装Scrapy的方式和问题总结 Scrapy爬虫教程二浅析最烦人的反爬...

网友评论

本文标题：Scrapy的中间件(Middleware)反爬虫设置

本文链接：https://www.haomeiwen.com/subject/vsbqlxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Scrapy的中间件(Middleware)反爬虫设置|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！