美文网首页
python爬虫

python爬虫

作者: 山高路陡 | 来源:发表于2020-07-11 09:30 被阅读0次

    python爬虫基础

    • 通讯协议

      • 数据通讯步骤

        • ip地址
        • 端口:数据发送到对方指定的应用程序上,为了标识应用程序,给网络应用程序用数字进行标识,这个数字叫做端口–逻辑端口
        • 定义通讯规则,这个通讯规则我们一般称之为协议
      • 协议:国际组织定义了通信协议TCP/IP两台计算机必须遵守的规定或规则

      • http协议 超文本传输协议 端口是80

      • https = http + ssl 端口443

      • 网络模型:

        • osi参考模型,应用层–>表示层–>会话层–>传输层–>网络层–>数据链路层–>物理层
        • tcp/ip参考模型: 应用层–>传输层–>网络层–>主机至网络层
        • http协议在tcp/ip应用层
    • 请求和响应

      • 用户浏览器发起请求 主要方式 get post
      • 浏览器发送Request请求,服务器接收后返回一个Response文件对象
      • 浏览器解析Response中的HTML,发现引用很多其他文件,浏览器会自动再次发送Request去获取其他文件
      • 当所有文件下载完后,浏览器会根据HTML语法结构完整显示
    • 客户端HTTP请求

      • URL标识资源位置,HTTP用来提交和获取资源,客户端发送一个HTTP请求到服务器包含以下格式:
        • 请求行、请求头部、空行、请求数据

    相关文章

      网友评论

          本文标题:python爬虫

          本文链接:https://www.haomeiwen.com/subject/rfmbcktx.html