python爬虫简单的添加代理进行访问

作者: 919b0c54458f | 来源:发表于2019-04-03 19:36 被阅读6次

在使用python对网页进行多次快速爬取的时候,访问次数过于频繁,服务器不会考虑User-Agent的信息,会直接把你视为爬虫,从而过滤掉,拒绝你的访问,在这种时候就需要设置代理,我们可以给proxies属性设置一个代理的IP地址,代码如下:

1 import requests
 2 from lxml import etree
 3 url = "https://www.ip.cn"
 4 headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 OPR/57.0.3098.116", }
 5 pro = {
 6 # 'https': 'https://118.122.92.252:37901', #四川省成都市 电信
 7 'https': 'https://27.17.45.90:43411', #湖北省武汉市 电信
 8 }
 9 try:
10 response = requests.get(url, headers=headers, proxies=pro)
11 html_str = response.content.decode()
12 # print(html_str)
13 html = etree.HTML(html_str)
14 message = html.xpath("//div[@class='well']//p/text()")
15 ip = html.xpath("//div[@class='well']//p/code/text()")
16 eng = html.xpath("//div[@class='well']/p/text()")
17 print(message[0]+ip[0])
18 print(message[1]+ip[1])
19 print(eng[2])
20 except requests.exceptions.ProxyError as e:
21 print("当前代理异常")
22 except:
23 print("当前请求异常")

Python学习群：556370268，有大牛答疑，有资源共享！是一个非常不错的交流基地！欢迎喜欢Python的小伙伴！

在上面的代码中,调用requests库,对一个IP地址查询网页进行访问,随后使用lxml库的xpath对网页进行分析提取,返回用户访问此网页时自己的IP地址,如果代理设置成功,则会返回你的信息和IP地址,如下:

image

如果代理失败则会返回异常,在代码中使用了捕获异常,则会返回设置的提示信息,"当前代理异常",如果不是代理的错误则是"当前请求异常"

image

PS:免费的代理不是很稳定,在确认代码无误后,如果仍然返回异常,可尝试更换代理IP...

网友评论

本文标题：python爬虫简单的添加代理进行访问

本文链接：https://www.haomeiwen.com/subject/rwhtiqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python爬虫简单的添加代理进行访问

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据爬虫Python AI Sql

互联网科技

程序员

Python学习

python爬虫简单的添加代理进行访问

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据 爬虫Python AI Sql

互联网科技

程序员

Python学习

大数据爬虫Python AI Sql