一篇文章教你反爬虫策略的应对机制

作者: 丨程序之道丨 | 来源:发表于2019-03-10 20:51 被阅读14次

爬虫与反爬虫，这相爱相杀的一对，简直可以写出一部壮观的斗争史。而在大数据时代，数据就是金钱，很多企业都为自己的网站运用了反爬虫机制，防止网页上的数据被爬虫爬走。然而，如果反爬机制过于严格，可能会误伤到真正的用户请求；如果既要和爬虫死磕，又要保证很低的误伤率，那么又会加大研发的成本。

简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢，对服务器造成的负担也相对较小。所以，网站反爬的重点也是那种简单粗暴的爬虫，反爬机制也会允许伪装度高的爬虫，获得数据。毕竟伪装度很高的爬虫与真实用户也就没有太大差别了。

这篇文章主要讨论使用 Scrapy 框架时，如何应对普通的反爬机制。

header 检验

最简单的反爬机制，就是检查 HTTP 请求的 Headers 信息，包括 User-Agent, Referer、Cookies 等。

User-Agent

User-Agent 是检查用户所用客户端的种类和版本，在 Scrapy 中，通常是在下载器中间件中进行处理。比如在 setting.py 中建立一个包含很多浏览器 User-Agent 的列表，然后新建一个 random_user_agent 文件：

class RandomUserAgentMiddleware(object):

@classmethod

def process_request(cls, request, spider):

ua = random.choice(spider.settings['USER_AGENT_LIST'])

if ua:

request.headers.setdefault('User-Agent', ua)

这样就可以在每次请求中，随机选取一个真实浏览器的 User-Agent。

Referer

Referer 是检查此请求由哪里来，通常可以做图片的盗链判断。在 Scrapy 中，如果某个页面 url 是通过之前爬取的页面提取到，Scrapy 会自动把之前爬取的页面 url 作为 Referfer。也可以通过上面的方式自己定义 Referfer 字段。

Cookies

网站可能会检测 Cookie 中 session_id 的使用次数，如果超过限制，就触发反爬策略。所以可以在 Scrapy 中设置 COOKIES_ENABLED = False 让请求不带 Cookies。

也有网站强制开启 Cookis，这时就要麻烦一点了。可以另写一个简单的爬虫，定时向目标网站发送不带 Cookies 的请求，提取响应中 Set-cookie 字段信息并保存。爬取网页时，把存储起来的 Cookies 带入 Headers 中。

X-Forwarded-For

在请求头中添加 X-Forwarded-For 字段，将自己申明为一个透明的代理服务器，一些网站对代理服务器会手软一些。

X-Forwarded-For 头一般格式如下

X-Forwarded-For: client1, proxy1, proxy2

这里将 client1，proxy1 设置为随机 IP 地址，把自己的请求伪装成代理的随机 IP 产生的请求。然而由于 X-Forwarded-For 可以随意篡改，很多网站并不会信任这个值。

限制 IP 的请求数量

如果某一 IP 的请求速度过快，就触发反爬机制。当然可以通过放慢爬取速度绕过，这要以爬取时间大大增长为代价。另一种方法就是添加代理。在此我向大家推荐一个大数据技术交流圈： 658558542 突破技术瓶颈，提升思维能力。

很简单，在下载器中间件中添加:

request.meta['proxy'] = 'http://' + 'proxy_host' + ':' + proxy_port

然后再每次请求时使用不同的代理 IP。然而问题是如何获取大量的代理 IP？

可以自己写一个 IP 代理获取和维护系统，定时从各种披露免费代理 IP 的网站爬取免费 IP 代理，然后定时扫描这些 IP 和端口是否可用，将不可用的代理 IP 及时清理。这样就有一个动态的代理库，每次请求再从库中随机选择一个代理。然而这个方案的缺点也很明显，开发代理获取和维护系统本身就很费时费力，并且这种免费代理的数量并不多，而且稳定性都比较差。如果必须要用到代理，也可以去买一些稳定的代理服务。这些服务大多会用到带认证的代理。

在 requests 库中添加带认证的代理很简单，

proxies =

{

"http": "http://user:pass@10.10.1.10:3128/",

}

然而 Scrapy 不支持这种认证方式，需要将认证信息 base64 编码后，加入 Headers 的 Proxy-Authorization 字段：

import base64

# Set the location of the proxy proxy_string = choice(self._get_proxies_from_file('proxies.txt')) # user:pass@ip:port proxy_items = proxy_string.split('@') request.meta['proxy'] = "http://%s" % proxy_items[1] # setup basic authentication for the proxy user_pass=base64.encodestring(proxy_items[0]) request.headers['Proxy-Authorization'] = 'Basic ' + user_pass

动态加载

现在越来越多的网站使用 ajax 动态加载内容，这时候可以先截取 ajax 请求分析一下，有可能根据 ajax 请求构造出相应的 API 请求的 URL 就可以直接获取想要的内容，通常是 json 格式，反而还不用去解析 HTML。

然而，很多时候 ajax 请求都会经过后端鉴权，不能直接构造 URL 获取。这时就可以通过 PhantomJS+Selenium 模拟浏览器行为，抓取经过 js 渲染后的页面。具体可以参考：Scrapy+PhantomJS+Selenium 动态爬虫

需要注意的是，使用 Selenium 后，请求不再由 Scrapy 的 Downloader 执行，所以之前添加的请求头等信息都会失效，需要在 Selenium 中重新添加

headers = {...}

for key, value in headers.iteritems():

webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.format(key)] = value

另外，调用 PhantomJs 需要指定 PhantomJs 的可执行文件路径，通常是将该路径添加到系统的 path 路径，让程序执行时自动去 path 中寻找。我们的爬虫经常会放到 crontab 中定时执行，而 crontab 中的环境变量和系统的环境变量不同，所以就加载不到 PhamtonJs 需要的路径，所以最好是在申明时指定路径：

driver = webdriver.PhantomJS(executable_path='/usr/local/bin/phantomjs')

感谢您的观看，如有不足之处，欢迎批评指正。

在此我向大家推荐一个大数据开发交流圈：

658558542 （☛点击即可加入群聊）

里面整理了一大份学习资料，全都是些干货，包括大数据技术入门，大数据离线处理、数据实时处理、Hadoop 、Spark、Flink、推荐系统算法以及源码解析等，送给每一位大数据小伙伴，让自学更轻松。这里不止是小白聚集地，还有大牛在线解答！欢迎初学和进阶中的小伙伴一起进群学习交流，共同进步！

最后祝福所有遇到瓶颈的大数据程序员们突破自己，祝福大家在往后的工作与面试中一切顺利。

网友评论

本文标题：一篇文章教你反爬虫策略的应对机制

本文链接：https://www.haomeiwen.com/subject/dwsppqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

一篇文章教你反爬虫策略的应对机制

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据

玩转大数据

大数据，机器学习，人工智能

大数据爬虫Python AI Sql

一篇文章教你反爬虫策略的应对机制

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据

玩转大数据

大数据，机器学习，人工智能

大数据 爬虫Python AI Sql

大数据爬虫Python AI Sql