美文网首页python爬虫学习
urllib基础及超时设置

urllib基础及超时设置

作者: 薛落花随泪绽放 | 来源:发表于2017-10-29 09:18 被阅读5次
    import urllib.request
    #urlretrieve(网址,本地文件存储地址) 直接下载网页到本地
    urllib.request.urlretrieve("http://www.baidu.com","E:/python/python爬虫/dld.html")
    urllib.request.urlcleanup()
    #看网页相应的简介信息info()
    file=urllib.request.urlopen("https://read.douban.com/provider/all")
    print(file.info())
    #返回网页爬取得状态码getcode()
    print(file.getcode())
    #获取当前访问的网页的url,geturl()
    print(file.geturl())
    

    超时设置

    由于网络速度或对方服务器的问题,我们爬取一个网页的时候,都需要时间。我们访问一个网页,如果该网页长时间未响应,那么我们的系统就会判断该网页超时了,即无法打开该网页。

    #超时设置
    import urllib.request
    for i in range(0,100):
        try:
             file=urllib.request.urlopen("http://www.baidu.com",timeout=1)
             print(len(file.read().decode("utf-8")))
        except Exception as err:
            print("出现异常"+str(err))
    

    相关文章

      网友评论

        本文标题:urllib基础及超时设置

        本文链接:https://www.haomeiwen.com/subject/cvgepxtx.html