爬虫笔记

作者: 小T数据站 | 来源:发表于2019-01-07 12:54 被阅读8次

爬虫：请求网站并提取数据的自动化程序。

爬虫的基本流程：
发起请求 --> 获取响应的内容 --> 解析内容 --> 保存数据

Request：
请求方式：主要有Get、Post两种类型，另外还有Head、Put、Delete、Options等。
请求URL：URL全称统一资源定位符
请求头：包含请求的头部信息，如User-Agent、Host、Cookies等
请求体：请求时额外携带的数据，如表单提交时的表单数据

Response：
响应状态：有多种响应状态，如200：成功，301：跳转，404：找不到页面，502服务器错误等
响应头：如内容类型、内容长度、服务器信息、设置cookies等
响应体：最主要的部分，包含了请求资源的内容，如网页HTML、图片二进制数据等

Urllib库的四个模块：
urllib.request：请求模块
urllib.error：异常处理模块
urllib.parse：url解析模块
urllib.robotparse：robots.txt解析模块

网友评论

本文标题：爬虫笔记

本文链接：https://www.haomeiwen.com/subject/oxosrqtx.html

爬虫笔记