反爬虫问题

作者: Jalynn葸 | 来源:发表于2018-11-03 13:12 被阅读20次

1、不返回网页，如不返回内容和延迟网页返回时间
2、返回数据非目标网页，如返回错误页、返回空白页和爬取多页时，均返回同一页
3、增加获取数据的难度，如登陆才可查看和登陆时设置验证码

1、修改请求头

import requests
r = requests.get('http://www.santostang.com')
print(r.request.headers)

获得的结果放到爬虫脚本的请求头headers中。
2、修改爬虫的间隔时间
爬虫运行的太过密集，设置一个时间间隔

import time
t1 = time.time()
time.sleep(2)
t2 =time.time()
total_time= t2-t1
print(total_time)

3、使用代理
代理是一种特殊的网络服务，允许一个网络终端，通过这个服务与另一个网络终端进行非直接的链接。
我们可以维护一个自己的IP池，从而让爬虫程序隐藏自己的真实IP。但是代理IP池维护起来很麻烦，而且十分不稳定。

网友评论

本文标题：反爬虫问题

本文链接：https://www.haomeiwen.com/subject/ywzxoftx.html

反爬虫问题