爬虫:请求网站并提取数据的自动化程序。
爬虫的基本流程:
发起请求 --> 获取响应的内容 --> 解析内容 --> 保存数据
Request:
请求方式:主要有Get、Post两种类型,另外还有Head、Put、Delete、Options等。
请求URL:URL全称统一资源定位符
请求头:包含请求的头部信息,如User-Agent、Host、Cookies等
请求体:请求时额外携带的数据,如表单提交时的表单数据
Response:
响应状态:有多种响应状态,如200:成功,301:跳转,404:找不到页面,502服务器错误等
响应头:如内容类型、内容长度、服务器信息、设置cookies等
响应体:最主要的部分,包含了请求资源的内容,如网页HTML、图片二进制数据等
Urllib库的四个模块:
urllib.request:请求模块
urllib.error:异常处理模块
urllib.parse:url解析模块
urllib.robotparse:robots.txt解析模块
网友评论