import urllib.request
#urlretrieve(网址,本地文件存储地址) 直接下载网页到本地
urllib.request.urlretrieve("http://www.baidu.com","E:/python/python爬虫/dld.html")
urllib.request.urlcleanup()
#看网页相应的简介信息info()
file=urllib.request.urlopen("https://read.douban.com/provider/all")
print(file.info())
#返回网页爬取得状态码getcode()
print(file.getcode())
#获取当前访问的网页的url,geturl()
print(file.geturl())
超时设置
由于网络速度或对方服务器的问题,我们爬取一个网页的时候,都需要时间。我们访问一个网页,如果该网页长时间未响应,那么我们的系统就会判断该网页超时了,即无法打开该网页。
#超时设置
import urllib.request
for i in range(0,100):
try:
file=urllib.request.urlopen("http://www.baidu.com",timeout=1)
print(len(file.read().decode("utf-8")))
except Exception as err:
print("出现异常"+str(err))
网友评论