美文网首页日更成长营自学编程Python
自学Python爬虫:重构爬虫UA信息

自学Python爬虫:重构爬虫UA信息

作者: 小强聊成长 | 来源:发表于2023-01-12 14:34 被阅读0次

    网络爬虫使用程序代码来访问网站,而非人类亲自点击访问,因此爬虫程序也被称为“网络机器人”。绝大多数网站都具备一定的反爬能力,禁止网爬虫大量地访问网站,以免给网站服务器带来压力。改变UA信息,让对方服务器认为你不是一个程序,就是反爬策略的第一步。

    下面直接上代码:

    from urllib import request
    # 定义变量:URL 与 headers
    url = 'http://httpbin.org/get' #向测试网站发送请求
    
    headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'}
    # 1、创建请求对象,包装ua信息
    req = request.Request(url=url,headers=headers)
    # 2、发送请求,获取响应对象
    res = request.urlopen(req)
    # 3、提取响应内容
    html = res.read().decode('utf-8')
    print(html)
    

    执行结果如下:

    {
      "args": {}, 
      "headers": {
        "Accept-Encoding": "identity", 
        "Host": "httpbin.org", 
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36", 
        "X-Amzn-Trace-Id": "Root=1-63bd2ac1-6438bfe320160274026a7c1a"
      }, 
      "origin": "119.109.99.37", 
      "url": "http://httpbin.org/get"
    }
    

    ________________END______________

    相关文章

      网友评论

        本文标题:自学Python爬虫:重构爬虫UA信息

        本文链接:https://www.haomeiwen.com/subject/uzxmcdtx.html