自学Python爬虫：重构爬虫UA信息

作者: 小强聊成长 | 来源:发表于2023-01-12 14:34 被阅读0次

自学Python爬虫：重构爬虫UA信息
python爬虫实战——爬取股票个股信息
Python--Scrapy爬虫获取简书作者ID的全部文章列表数
爬虫入门基础
3分钟带你了解世界第一语言Python 入门上手也这么简单！
01-认识爬虫
月薪2万的爬虫工程师，Python需要学到什么程度？
Python入门最强攻略！零基础自学无从下手？从爬虫入手就对了！
爬虫入门
Python网络爬虫实战之十四：Scrapy结合scrapy-s

网络爬虫使用程序代码来访问网站，而非人类亲自点击访问，因此爬虫程序也被称为“网络机器人”。绝大多数网站都具备一定的反爬能力，禁止网爬虫大量地访问网站，以免给网站服务器带来压力。改变UA信息，让对方服务器认为你不是一个程序，就是反爬策略的第一步。

下面直接上代码：

from urllib import request
# 定义变量：URL 与 headers
url = 'http://httpbin.org/get' #向测试网站发送请求

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'}
# 1、创建请求对象，包装ua信息
req = request.Request(url=url,headers=headers)
# 2、发送请求，获取响应对象
res = request.urlopen(req)
# 3、提取响应内容
html = res.read().decode('utf-8')
print(html)

执行结果如下：

{
  "args": {}, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-63bd2ac1-6438bfe320160274026a7c1a"
  }, 
  "origin": "119.109.99.37", 
  "url": "http://httpbin.org/get"
}

________________END______________