美文网首页
一、Net_Crawler-urllib库使用

一、Net_Crawler-urllib库使用

作者: 铅笔与旧友 | 来源:发表于2018-10-30 17:53 被阅读0次

    一、urllib.requet

    • urllib.request

    用来发送请求获取响应

    response_obj =urllib.request.urlopen(url) 获得HTTPResponse object 响应对象 
    
    response_obj.read()       # 获取的是二进制数据
    response_obj.read().decode()   # 将数据转化为字符串(默认utf8编码)
    
    response_obj.readline()     # 按行读取
    response_obj.readlines()    # 获取多行 装入列表
    response_obj.getcode()      # 服务器响应的状态码
    response_obj.geturl()       # 响应的来源
    response_obj.getheaders()   # 获取响应头   
    
    
    # 传入 url路径 和 本地的路径(将来获取数据存到哪里)
    # 图片
    urllib.request.urlretrieve(img_url,'./download/pengyou.jpg')
    
    
    # 文本
    text_url = 'http://www.baidu.com/'
    urllib.request.urlretrieve(text_url,'./download/baidu.html')
    
    
    # 视频
    video_url = 'http://mvvideo11.meitudata.com/5bcc0c5280f832321.mp4?k=15493c77ef25f5e2995eb033f6addc48&t=5bd168a3'
    urllib.request.urlretrieve(video_url,'./download/cole.mp4')
    
    
    • urllib.parse
    import urllib.parse
    
    # 对url 中文进行编码
    code = urllib.parse.quote('狗子')
    print(code)
    
    # 对url 中文进行解码
    code1 = urllib.parse.unquote('%E7%8B%97%E5%AD%90')
    print(code1)
    
    
    url = 'https://image.baidu.com/search/index?tn=baiduimage&'
    date = {
        'id':'班助',
        'sex':'男',
        'age':'十八'
    }
    # urlencode传入请求的数据对象 返回url编码后的字符串
    query_string = urllib.parse.urlencode(date)
    # print(query_string)
    print(url+query_string) 
    结果:https://image.baidu.com/search/index?tn=baiduimage&id=%E7%8F%AD%E5%8A%A9&sex=%E7%94%B7&age=%E5%8D%81%E5%85%AB
    
    # 创建请求对象
    # 使用Request 传入 url(必选参数) data(请求参数,需要字节流)  headers(请求头)
    request_obj = urllib.request.Request(url,headers=headers)
    # urlopen的参数 可以是简单的字符串 也可以是请求对象
    # 如果传入的请求对象 则可以进行更高级的设置(比如设置headers)
    # 获得相应对象
    response_obj = urllib.request.urlopen(request_obj)
    
    表单数据处理
        # 处理表单数据 先变成符合url规则的字符串 然后再把字符串转换成字节码
        bytes_data = urllib.parse.urlencode(form_data).encode()
        response = urllib.request.urlopen(request, data=bytes_data)
    
    • urllib.error
    异常处理:Exception  官方的异常基类
    URLError\HTTPError是Exception的子类,在向url发送请求的时候,会出现的一些异常情况
    HTTPError是URLError的子类
    所以 如果两个异常都要捕获 要把http放上面 否则都会被URL捕获
    import urllib.request
    import urllib.error
    
    url = 'http://www.baidu.com'
    try:
        response = urllib.request.urlopen(url)
        print(response)
    except urllib.error.HTTPError as e:
        print("HTTP错误")
    except urllib.error.URLError as e:
        print("URL地址有误")
    
    • Handler处理器、自定义Opener
    urllib.request.urlopen() 函数实现简单的发送请求,不能定制请求头
    引入了构建请求对象
    urllib.request.Request() 创建的request对象可以定制头部,但不能实现设置代理、携带cookie等更高级的功能
    引入了 Handler和Opener
    可以实现代理、携带cookie等高级功能
    
    import urllib.request
    import urllib.error
    
    # 1. 创建handler对象
    handler = urllib.request.HTTPHandler()  # 用于保存http的cookie
    # 2. 将handler传入函数获取opener
    opener = urllib.request.build_opener(handler) 
    url = "http://www.baidu.com/"
    # 3. 通过open()函数来发送请求
    # response = opener.open(url)  # 可以传url字符串 也可以传request对象
    user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 " \
                 "(KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
    headers = {"User-Agent": user_agent}
    request = urllib.request.Request(url, headers=headers)
    response = opener.open(request)
    print(response)
    
    • 设置代理
    代理:作为中间人,帮助客户端(浏览器)访问其他服务器的服务器
    
    代码请求中设置代理
    
    import urllib.request
    proxy = {"http": "114.226.65.220:6666"}  # {"协议":"地址:端口"}
    # 1. 设置代理使用 ProxyHandler
    handler = urllib.request.ProxyHandler(proxy)
    # 2. 把创建的handler传入build函数 创建出opener
    opener = urllib.request.build_opener(handler)
    url = "http://www.baidu.com/s?wd=ip"  # 请求字符串
    # 客户端信息
    user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 " \
                 "(KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
    headers = {"User-Agent": user_agent}
    request = urllib.request.Request(url, headers=headers)
    # 3. 使用opener打开
    response = opener.open(request)
    # 4. 写入本地文件 以便查看效果
    with open("ip.html", "wb") as fp:
        fp.write(response.read())
    

    相关文章

      网友评论

          本文标题:一、Net_Crawler-urllib库使用

          本文链接:https://www.haomeiwen.com/subject/duxntqtx.html