python爬虫最为核心的HTTP协议解析，及自定义协议的分析

作者: Python之战 | 来源:发表于2019-01-28 22:57 被阅读0次

python爬虫最为核心的HTTP协议解析，及自定义协议的分析
Python爬虫最为核心的HTTP协议解析，及自定义协议的分析！
python爬虫初步
爬虫入门系列（二）：优雅的HTTP库requests
Web流程-HTTP协议
Fiddler基本用法（1）HTTP协议
项目中IM项目自定义协议解析说明
关于爬虫
《TCP/IP详解卷1:协议》第3章 IP:网际协议
《TCP/IP详解卷1：协议》第3章 IP:网际协议

机器之间的协议就是机器通信的语法，只有按照这种语法发来的信息，机器之间才能相互理解内容，也可以理解为信息的一种格式。

HTTP/IP协议是互联网最为重要的协议，没有HTTP/IP协议，也就没有互联跟不会有网，对于爬虫而言一切数据、请求都是围绕HTTP协议展开。

image

但是在python实现的网络爬虫中都是使用封装好了的请求库如：requests、scrapy、urllib等，这些是对socket的封装，而socket是除了机器语言外最底层的协议。

HTTP是公认的协议，但是并不是所有的终端通信都使用HTTP协议，也有处于保密需求而自定义协议，我们要通过对HTTP协议的分析理解来认来掌握自定义协议的分析思路。

image

在浏览器开发者模式下，任意截获一个数据包点击view parsed，显示出来的就是原始的HTTP请求头格式及协议请求头格式。

image

最主要的头两行分析如下，第一行：

    GET / HTTP/1.1 分别是请求方式 请求路径 协议及其版本

/就表示首页，最后的HTTP/1.1指示采用的HTTP协议版本是1.1

从第二行开始，每一行都类似于Xxx: abcdefg：

    Host: mzzd.xyz

表示请求的域名是mzzd.xyz，如果一台服务器有多个网站，服务器就需要通过Host来区分浏览器请求的是哪个网站。

再看HTTP响应及其格式：

image

HTTP响应分为Header和Body两部分（Body是可选项），我们在Network中看到的Header最重要的几行如下：

    HTTP/1.1 200 OK 分别是协议版本 状态码 说明

200表示一个成功的响应，后面的OK是说明。

    Content-Type: text/html

Content-Type指示响应的内容，浏览器依靠Content-Type来判断响应的内容类型，即使URL是http://www.mzzd.xyz/1.jpg，它也不一定就是图片。

HTTP GET请求的格式：    GET /path HTTP/1.1    Header1: Value1    Header2: Value2    Header3: Value3每个Header一行一个，换行符是\r\n。HTTP POST请求的格式：    POST /path HTTP/1.1    Header1: Value1    Header2: Value2    Header3: Value3    body data goes here...当遇到连续两个\r\n时，Header部分结束，后面的数据全部是Body。HTTP响应的格式：    200 OK    Header1: Value1    Header2: Value2    Header3: Value3    body data goes here...HTTP响应如果包含body，也是通过\r\n\r\n来分隔的。

那我们用python实现HTTP客户端：

#coding=utf-8import socketfrom multiprocessing import Processdef handleClient(clientSocket):    '用一个新的进程，为一个客户端进行服务'    recvData = clientSocket.recv(2014)    requestHeaderLines = recvData.splitlines()    for line in requestHeaderLines:        print(line)    responseHeaderLines = "HTTP/1.1 200 OK\r\n" # 响应首行内容    responseHeaderLines += "\r\n" # 响应头与body之间应有一空行    responseBody = "hello world"    response = responseHeaderLines + responseBody    clientSocket.send(response)    clientSocket.close()def main():    '作为程序的主控制入口'    serverSocket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)    serverSocket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)    serverSocket.bind(("", 7788))    serverSocket.listen(5)    while True:        clientSocket,clientAddr = serverSocket.accept()        clientP = Process(target = handleClient, args = (clientSocket,))        clientP.start()        clientSocket.close()if __name__ == '__main__':    main()

这个客户端的作用就是当你在浏览器访问本地的8000端口，会向浏览器返回hello Word的字符。