反爬虫的方式
1、不返回网页,如不返回内容和延迟网页返回时间
2、返回数据非目标网页,如返回错误页、返回空白页和爬取多页时,均返回同一页
3、增加获取数据的难度,如登陆才可查看和登陆时设置验证码
如何反反爬虫
1、修改请求头
import requests
r = requests.get('http://www.santostang.com')
print(r.request.headers)
获得的结果放到爬虫脚本的请求头headers中。
2、修改爬虫的间隔时间
爬虫运行的太过密集,设置一个时间间隔
import time
t1 = time.time()
time.sleep(2)
t2 =time.time()
total_time= t2-t1
print(total_time)
3、使用代理
代理是一种特殊的网络服务,允许一个网络终端,通过这个服务与另一个网络终端进行非直接的链接。
我们可以维护一个自己的IP池,从而让爬虫程序隐藏自己的真实IP。但是代理IP池维护起来很麻烦,而且十分不稳定。
网友评论