美文网首页js css html
02.HTTP协议与应用开发

02.HTTP协议与应用开发

作者: 一直流浪 | 来源:发表于2022-09-11 14:13 被阅读0次

    第二天:HTTP协议与应用开发

    新笔趣阁: http://www.xbiquge.la/

    2.1 HTTP协议报文

    HTTP(HyperText Transfer Protocol)协议是网络模型中的应用层中的协议,用于客户端和服务端之间的超文本传输或通信。主要应用于网站服务(文本、网页、图片、音频、视频、流-RTMP/m3u8),内部都是基于TCP/IP协议(网络通信协议)。

    HTTP相对于客户端和服务端之间的通信,存在两种类型的对象,一是HTTP请求Request, 用于客户端向服务端发起资源操作(RESTful-增加、修改、查询和删除); 另一个是HTTP的响应Response, 用于客户端请求后的响应(服务器)。

    在HTTP协议中,相对于服务器的每个资源都存在一个唯一路径,称之为统一资源定位符,即为URL(网址)。

    # 百度首页资源URL
    # https = http + ssl(安全证书加密规则)
    # https://  -> schema 方案或方言
    # ftp://
    # ws://
    # www.baidu.com  表示host主机名称(域名DNS),通过dns解析出它的对应的IP地址(TCP/IP)
    # 默认https端口443, http端口 80
    # / 表示某一站点下的首页资源访问的路径 path
    https://www.baidu.com:443/
    
    # url资源路径的格式
    schema://host:port/path
    

    2.1.1 请求报文

    在HTTP协议中,请求对象应该包括两大部分: 头header和正文body。

    当发起baidu首页请求时,请求报文的格式如下:

    GET / HTTP/1.1
    Host: www.baidu.com
    Accept: text/html
    Cookie: sessionid=1010xx1100abc12
    User-Agent: Firefox 11.0
    
    
    

    请求报文的两个部分使用空行分隔的,如果正文是空的,也需要使用一个空行表示。

    请求的方法: GET 查询(资源访问: 在浏览的地址栏输入的url再请求)、POST 上传(添加资源)、PUT/PATCH 修改资源、DELETE 删除资源。

    发起百度搜索资源的URL请求,报文格式如下:

    GET /s HTTP/1.1
    Host: www.baidu.com
    User-Agent: Firefox 11.0
    Accept: text/html,text/css
    
    wd=python
    

    发起小说的搜索的请求报文:

    POST /modules/article/waps.php HTTP/1.1
    Host: www.xbiquge.la
    Connection: keep-alive
    Content-Length: 46
    Cache-Control: max-age=0
    Upgrade-Insecure-Requests: 1
    Origin: http://www.xbiquge.la
    Content-Type: application/x-www-form-urlencoded
    User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
    Referer: http://www.xbiquge.la/
    Accept-Encoding: gzip, deflate
    Accept-Language: zh-CN,zh;q=0.9
    Cookie: _abcde_qweasd=0; Hm_lvt_169609146ffe5972484b0957bd1b46d6=1593737925; bdshare_firstime=1593737924892; Hm_lpvt_169609146ffe5972484b0957bd1b46d6=1593741450
    
    searchkey=%E5%A4%A9%E4%B8%8B%E7%AC%AC%E4%B8%80
    

    2.1.2 响应报文

    请求后,服务器向客户端发送响应的数据--响应报文,它的报文格式(头 header + 正文 body )如下:

    HTTP/1.1 200 OK
    Content-Type:text/html;charset=utf-8
    Content-Length: 120
    Connection: keep-alive
    
    <!DOCTYPE html>
    <html>
      <head>
      </head>
      <body>
         <h1>hi</h1>
       </body>
    </html>
    

    如搜索小说的请求响应的报文内容如下:

    HTTP/1.1 200 OK
    Server: nginx
    Date: Fri, 03 Jul 2020 01:58:09 GMT
    Content-Type: text/html
    Transfer-Encoding: chunked
    Connection: keep-alive
    X-Powered-By: PHP/5.5.9-1ubuntu4.29
    Cache-Control: max-age=600
    Content-Encoding: gzip
    
    <!doctype html>
    <html>
    <head>
    <title>新笔趣阁_书友最值得收藏的网络小说阅读网</title>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <meta name="keywords" content="新笔趣阁,网络小说,小说阅读网,小说" />
    <meta name="description" content="新笔趣阁是广大书友最值得收藏的网络小说阅读网,网站收录了当前最火热的网络小说,免费提供高质量的小说最新章节,是广大网络小说爱好者必备的小说阅读网。" />
    <link rel="stylesheet" type="text/css" href="/images/biquge.css"/>
    <script type="text/javascript" src="http://libs.baidu.com/jquery/1.4.2/jquery.min.js"></script>
    <!--<script type="text/javascript" src="http://cbjs.baidu.com/js/m.js"></script>-->
    <script type="text/javascript" src="/images/bqg.js"></script>
    </head>
    <body>
        <div id="wrapper">
            ...
        </div>
    </body>
    <script charset="utf-8" src="http://www.baidu.com/js/opensug.js"></script>
    </html>
    

    响应的状态码:

    参考: https://baike.baidu.com/item/HTTP%E7%8A%B6%E6%80%81%E7%A0%81/5053660?fr=aladdin

    10x: 
    20x:  
        - 200 OK 响应成功
        - 203 Non-Authoritative Information  无权限
    30x:
      - 301 Moved Permanently  重定向到某一个永久资源上
      - 302 Move Temporarily   请求的资源从缓存中读取
    40x:
        - 401 Unauthorized  请求资源未授权
        - 403 Forbidden     请求资源被拒绝
        - 404 Not Found     请求的资源不存在
        - 405 Method Not Allowed  请求方法不允许
    50x:
     - 500 Internal Server Error  服务器内部发生了错误
    

    2.1.3 交互的数据类型

    请求的body和响应的body的数据类型(Content-Type): 因为请求和响应是一一对应的,因此从请求上传的数据到响应回来的数据这一过程称之为交互,过程产生的数据称之为交互 数据。

    常用的HTTP交互数据类型 Content-Type有:

    application/x-javascript  表示js脚本,jquery
    text/css   css样式
    image/png  png图片
    image/jpeg jpg图片
    image/gif  git图片
    text/*    文本类型的数据
    application/json  json格式的数据
    application/x-www-form-urlencoded  form表单的url编码后数据
    multipart/form-data    多元的form表单编码后的数据,一般用于文件上传
    audio/mpeg  mp3格式的音频数据
    application/xml  xml格式的数据
    

    Content-Type写法,来于文件类型描述(mime-type)的写法。

    【注意】在RESTful规范中,交互的数据格式是json(application/json)或xml(application/xml)。

    2.2 urllib请求与响应

    urllib是Python内置一个模块,用于处理HTTP的网络请求,包括发送(打开)请求连接、获取响应对象、请求的数据进行编码处理等。

    在urllib模块,导包的语句如下:

    from urllib.request import urlopen, Request
    from urllib.parse import quote, urlencode
    

    2.2.1 发送请求

    2.2.1.1 普通请求
    url = 'http://www.xbiquge.la/'  # 声明网络资源的地址
    # 发起GET请求
    # request -> req
    # response -> resp
    response = urlopen(url)  # 发送请求,并从服务响应成功后,urlopen()返回封装响应数据的类对象
    # 判断响应是否成功
    if response.code == 200:
      print('--OK--')
      content = response.read()  # 读取响应的字节码
      
      # 获取响应报文头的信息,从中查看响应数据的字符集
      content_type = response.headers['Content-Type']  # text/html;charset=UTF-8
      charset = content_type[content_type.find('=')+1:]
      
      text = content.decode(charset)
      print(text)
    
    from urllib.request import urlopen, Request
    from urllib.parse import quote, urlencode
    from http.client import HTTPResponse
    
    headers = {'Referer': 'http://www.521609.com/daxuexiaohua/',
               'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) '
                             'Gecko/20100101 Firefox/78.0'}
    
    url = 'http://www.521609.com/daxuexiaohua/'
    req = Request(url, headers=headers)
    resp: HTTPResponse = urlopen(req)
    if resp.code == 200:
        content = resp.read()  # 读取字节数据
        content_type = resp.headers['content']  # text/html;charset=UTF-8
        charset = content_type[content_type.find('=')+1:]
        text = content.decode(charset)
        print(text)
        
    

    2.2.2 响应对象的属性

    响应对象的类型: http.client.HTTPResponse

    属性:

    code/status  响应状态码 
    headers      响应的头信息,http.client.HTTPMessage,它是dict的子类,所以可以将headers当作为dict使用。
    read()       读取响应的数据, 返回是字节码数据
    

    2.3 requests请求与响应

    安装requests库

    pip install requests -i https://mirrors.aliyun.com/pypi/simple
    

    生产项目中已经安装的库的说明文件

    pip freeze > requirements.txt
    

    已经知道项目的依赖环境文件,安装相关的库

    pip install -r requirements.txt -i http://mirrors.aliyun.com/pypi/simple
    

    2.3.1 模块方法

    import requests
    
    requests.request(method, url, params, data, json,headers, cookies, proxies, files, auth)
    

    【注意】request()方法是requests模块中其他方法的基本方法。

    # 常用的方法
    requests.get(url, params: dict = None, headers: dict=None, cookies:dict=None)
    requests.post(url, data: dict, json: dict=None, headers: dict=None, cookies:dict=None)
    requests.put(url, data: dict,json: dict=None, headers: dict=None, cookies:dict=None)
    requests.delete(url, params,  headers: dict=None, cookies:dict=None)
    
    url = 'http://www.xbiquge.la/xiaoshuodaquan/'
    resp = requests.get(url)
    

    2.3.2 响应对象

    响应对象的类型: requests.models.Response

    导包:

    # from requests.models import Response
    from requests import Response
    

    Response类在requests包的__init__.py脚本中。

    对象的属性:

    status_code 响应的状态码
    headers 响应的header头信息,是字典类型
    encoding 响应数据的文本字符集,在获取响应文本之前,可以设置它的字符集
    cookies  响应的Cookie信息(客户端存储数据的一种技术)
    content 响应的字节数据
    text 响应的文本数据
    json() 响应的数据是json内容, Content-Type: application/json
    

    2.3.3 项目练习

    # 获取所有免费的IP代理网页
    url = 'https://www.kuaidaili.com/free'  # get请求
    ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:77.0) Gecko/20100101 Firefox/77.0'
    referer='https://www.kuaidaili.com/free'
    
    resp = requests.get(url, headers={'User-Agent': ua, 'Referer': referer})
    if resp.status_code == 200:
      with open('ip.html', 'wb') as f:
        f.write(resp.content)
        
      print('下载成功')
    
    # 百度翻译建议搜索
    import requests
    
    url = 'https://fanyi.baidu.com/sug' # post请求
    # form表单的参数 kw,参数值是任意的英文单词
    data = {
      'kw': 'exit'
    }
    
    # 请求头的User-Agent
    ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:77.0) Gecko/20100101 Firefox/77.0'
    # 发起了post请求
    resp = requests.post(url, data=data, headers={'User-Agent': ua})
    if resp.status_code == 200:
      ret = resp.json() # 文本是json格式, json.loads(resp.text)
      if ret['errno'] == 0:
          for item in ret['data']:
            print(item['k'], item['v'])
      else:
          print(ret['errmsg'])
    
    
        #!/usr/bin/python3
    # coding: utf-8
    import requests
    
    # 请求头的User-Agent
    ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:77.0) Gecko/20100101 Firefox/77.0'
    
    def sug(kw):
        url = 'https://fanyi.baidu.com/sug' # post请求
        # form表单的参数 wd,参数值是任意的英文单词
        data = {
          'kw': kw
        }
    
        # 发起了post请求
        resp = requests.post(url, data=data, headers={'User-Agent': ua})
        if resp.status_code == 200:
          ret = resp.json() # 文本是json格式, json.loads(resp.text)
          if ret['errno'] == 0:
              for item in ret['data']:
                print(item['k'], item['v'])
          else:
              print(ret['errmsg'])
    
    
    if __name__ == '__main__':  # 当前模块作为主程序执行时,条件为True
        sug('function')
    
    # 作业: 下载招标公告信息的前三页的数据
    # 从 http://www.ccgp-xinjiang.gov.cn/ZcyAnnouncement/index.html网页分析每一页数据的接口
    import requests
    ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0'
    url = 'http://www.ccgp-xinjiang.gov.cn/front/search/category'
    
    
    def purchase(page):
        json_data = {'categoryCode': "xjcgImportantNotice",
                     'pageNo': page,
                     'pageSize': "15",
                     'utm': "sites_group_front.5b1ba037.0.0.37fbce30bd1a11ea8f27e1de87f09528"}
    
        resp = requests.post(url, json=json_data, headers={'User-Agent': ua})
        if resp.status_code == 200:
            with open('采购信息页面' + str(page) + '.html', 'wb') as f:
                f.write(resp.content)
            print('下载成功')
    
    
    if __name__ == '__main__':
        purchase(1)
        purchase(2)
        purchase(3)
    

    相关文章

      网友评论

        本文标题:02.HTTP协议与应用开发

        本文链接:https://www.haomeiwen.com/subject/xmbqwrtx.html