美文网首页
python爬虫

python爬虫

作者: 山高路陡 | 来源:发表于2020-07-11 09:30 被阅读0次

python爬虫基础

  • 通讯协议

    • 数据通讯步骤

      • ip地址
      • 端口:数据发送到对方指定的应用程序上,为了标识应用程序,给网络应用程序用数字进行标识,这个数字叫做端口–逻辑端口
      • 定义通讯规则,这个通讯规则我们一般称之为协议
    • 协议:国际组织定义了通信协议TCP/IP两台计算机必须遵守的规定或规则

    • http协议 超文本传输协议 端口是80

    • https = http + ssl 端口443

    • 网络模型:

      • osi参考模型,应用层–>表示层–>会话层–>传输层–>网络层–>数据链路层–>物理层
      • tcp/ip参考模型: 应用层–>传输层–>网络层–>主机至网络层
      • http协议在tcp/ip应用层
  • 请求和响应

    • 用户浏览器发起请求 主要方式 get post
    • 浏览器发送Request请求,服务器接收后返回一个Response文件对象
    • 浏览器解析Response中的HTML,发现引用很多其他文件,浏览器会自动再次发送Request去获取其他文件
    • 当所有文件下载完后,浏览器会根据HTML语法结构完整显示
  • 客户端HTTP请求

    • URL标识资源位置,HTTP用来提交和获取资源,客户端发送一个HTTP请求到服务器包含以下格式:
      • 请求行、请求头部、空行、请求数据

相关文章

网友评论

      本文标题:python爬虫

      本文链接:https://www.haomeiwen.com/subject/rfmbcktx.html