美文网首页
爬虫笔记

爬虫笔记

作者: 小T数据站 | 来源:发表于2019-01-07 12:54 被阅读8次

    爬虫:请求网站并提取数据的自动化程序。

    爬虫的基本流程:
    发起请求 --> 获取响应的内容 --> 解析内容 --> 保存数据

    Request:
    请求方式:主要有Get、Post两种类型,另外还有Head、Put、Delete、Options等。
    请求URL:URL全称统一资源定位符
    请求头:包含请求的头部信息,如User-Agent、Host、Cookies等
    请求体:请求时额外携带的数据,如表单提交时的表单数据

    Response:
    响应状态:有多种响应状态,如200:成功,301:跳转,404:找不到页面,502服务器错误等
    响应头:如内容类型、内容长度、服务器信息、设置cookies等
    响应体:最主要的部分,包含了请求资源的内容,如网页HTML、图片二进制数据等

    Urllib库的四个模块:
    urllib.request:请求模块
    urllib.error:异常处理模块
    urllib.parse:url解析模块
    urllib.robotparse:robots.txt解析模块

    相关文章

      网友评论

          本文标题:爬虫笔记

          本文链接:https://www.haomeiwen.com/subject/oxosrqtx.html