美文网首页
爬虫复习总结

爬虫复习总结

作者: 山野过客 | 来源:发表于2019-06-25 15:14 被阅读0次

    HTTP的端口号为80

     HTTPS的端口号为443(HTTPS协议(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP协议的基础上加入SSL层。 SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。)

    但是,有些网站虽然使用了HTTPS协议,但是还是会提示不安全:

    因为这些网站的证书可能是自己产生的,不是通过CA机构同意颁发的,所以不被信任,但是他们的数据传输依然是经过SSL加密的,后面我们在爬取这类网站的时候,需要忽略证书,否则会报ssl错误

    Cookie 和 Session: 服务器和客户端的交互仅限于请求/响应过程,结束之后便断开,在下一次请求时,服务器会认为新的客户端。

    为了维护他们之间的链接,让服务器知道这是前一个用户发送的请求,必须在一个地方保存客户端的信息。

    Cookie:通过在 客户端 记录的信息确定用户的身份。

    Session:通过在 服务器端 记录的信息确定用户的身份。

    常见状态码

    100~199:表示服务器成功接收部分请求,要求客户端继续提交其余请求才能完成整个处理过程。

    2xx:表示服务器成功接收请求并已完成整个处理过程。

    200(OK 请求成功)。

    3xx:为完成请求,客户需进一步细化请求。例如:请求的资源已经移动一个新地址、 常用

    301: 永久重定向

    302:临时重定向(所请求的页面已经临时转移至新的url)

    4xx:客户端的请求有错误.

    400:错误请求,服务器无法解析请求

    401:未授权,没有进行身份验证

    403:服务器拒绝访问

    404:服务器无法找到被请求的网页

    408:请求超时

    5xx:服务器端出现错误

    500:服务器内部错误

    501:服务器不具备完成请求的功能

    503:服务器不可用

    相关文章

      网友评论

          本文标题:爬虫复习总结

          本文链接:https://www.haomeiwen.com/subject/eoacgqtx.html