urllib是Python自带的标准库,不用安装,直接可以用。
提供了如下功能:
网页请求
响应获取
代理和cookie设置
异常处理
URL解析
ulilib 四个模块
urllib.request:用于获取网页的响应内容
urllib.error:异常处理模块,用于处理异常的模块
urllib.parse:用于解析url
urllib.robotparse:用于解析robots.txt,主要用于看哪些网站不能进行爬取,不过少用
urllib.urlopen()
urlopen返回对象提供方法:
read() , readline() ,readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样
info():返回一个httplib.HTTPMessage对象,表示远程服务器返回的头信息
getcode():返回Http状态码。如果是http请求,200请求成功完成;404网址未找到
geturl():返回请求的url
Cookie:客户端用于记录用户身份,维持登录信息
urllib提供了一系列用于操作URL的功能。
Get
Post
网友评论