美文网首页
【为了尊严】爬虫(一)

【为了尊严】爬虫(一)

作者: 歌兮舞兮独酌兮 | 来源:发表于2018-09-30 21:18 被阅读9次

    一、请求

    1.GET&POST

    GET请求中的参数包含在URL里面,数据可以在URL中看到,而POST请求的URL不会包含这些数据,数据都是通过表单形式传输的,会包含在请求体中。
    GET请求提交的数据最多只有1024字节,而POST方式没有限制。
    2.请求头(Request Headers)
    cookies:记录登录状态
    Content-Type:表示媒体类型
    爬虫需要设定请求头,在构造POST请求时要注意使用正确的Content-Type
    3.请求体(Request Body)
    一般记录POST表单中的数据,对于GET请求则为空

    二、响应

    1.响应状态码(Response Status Code)
    表示服务器的响应状态,常见的如:200(正常响应)、404(页面未找到)、500(服务器内部错误)
    2.响应头(Response Headers)
    服务器对请求的应答信息
    3.响应体(Response Body)
    包含的是网页的内容
    做爬虫时,通过响应体获得网页的数据

    三、爬虫概述

    1.工作流程:获取网页->提取信息->保存数据
    2.理论上来说,网页上的内容都可以抓

    四、 session&cookies

    1.HTTP
    为了保存用户的会话信息,session在服务器;cookies在客户端。下次访问网页时,将cookies发给服务器,服务器能鉴别出用户判断登录状态然后返回响应。
    爬虫将登录成功后的cookies发送的请求放在Request Headers中,从而不用再次模拟登录
    2.session
    服务器在一定时长内存储的用户会话所需的属性和配置信息
    3.cookies
    为了辨别用户身份在本地存储的数据

    属性:
    HTTP字段:为true则只在HTTP头部带有cookies而不能用document.cookies访问cookies
    Secure:cookies是否使用安全协议传输
    浏览器关闭,会话不一定关闭了。服务器并不知道浏览器关闭了,而是会在一定的时长内保持session。其中cookies可以保存在磁盘上

    五、代理原理

    代理就是把:PC->sever 装换成 PC->proxy sever->server
    这样就能实现IP伪装

    相关文章

      网友评论

          本文标题:【为了尊严】爬虫(一)

          本文链接:https://www.haomeiwen.com/subject/nyqgoftx.html