美文网首页Python
Python爬虫编码

Python爬虫编码

作者: 鹊南飞_ | 来源:发表于2020-07-29 09:40 被阅读0次
  • 问题

reponse.encoding 默认为 gb2312, 出现部分中文乱码

  • 解决方法

response.encoding 设置为 gbk
因为gb2312只支持六千多个汉字的编码,
gbk支持1万多个汉字编码。

  • 代码示例
import requests
url = .....
headers = .......
response = requests.get(url=url)
# response.encoding 默认为gb2312,出现部分中文乱码
# 通过以下方式设置编码方式
response.encoding = 'gbk'
  • 编码方式的区别
  1. gbk 一般用于繁体中文,
    是国家标准gb2312基础上扩容后兼容gb2312的标准。
    文字编码(中英文)用双字节编码,是国家编码,
    通用性比utf8差,但utf8占用的数据库比gbk

  2. gb2312一般用于简体中文

  3. gb2312只支持六千多个汉字的编码
    gbk支持1万多个汉字编码。

  4. utf8 是全球通用,
    用于解决国际上字符的一种多字节编码,
    英文使用8位(一个字节),
    中文使用28位(3个字节)。
    现在一般都用utf8编码。
    允许含BOM,但一般不包含BOM

相关文章

网友评论

    本文标题:Python爬虫编码

    本文链接:https://www.haomeiwen.com/subject/fdzcrktx.html