爬虫遇到日本编码的网站（解决乱码、解码失败问题）

作者: 沫明 | 来源:发表于2021-03-03 14:52 被阅读0次

爬虫遇到日本编码的网站（解决乱码、解码失败问题）
插入数据库出现中文乱码问题
任务4
关于字符串出现的乱码问题
HTML基础知识-乱码、颜色表示方法、meta的作用及常见浏览器
Java 字符编码
unicode编码转中文
计算机编码发展简史
HTML基础
HTML知识点

原网页编码

问题：

直接获取到的数据是乱码，用response.text.encode('SHIFT_JIS')进行解码会有些特殊字符无法解码报错。

import requests
import chardet
url = "https://worldjpn.grips.ac.jp/documents/indices/pm/3.html"
payload={}
headers = {}
response = requests.request("GET", url, headers=headers, data=payload)
guess = chardet.detect(response.content)
print(guess)
print(response.text)

直接获取到的乱码

request解决方法：

response.encoding = response.apparent_encoding

import requests
import chardet
url = "https://worldjpn.grips.ac.jp/documents/indices/pm/3.html"
payload={}
headers = {}
response = requests.request("GET", url, headers=headers, data=payload)
response.encoding = response.apparent_encoding
guess = chardet.detect(response.content)
print(guess)
print(response.text)

request

scrapy解决方法：

response._encoding = "SHIFT_JIS"

response._cached_ubody = None

    response._encoding = "SHIFT_JIS"
    response._cached_ubody = None  # 清理缓存

或者

response._encoding = response.encoding

response._cached_ubody = None # 清理缓存

    response._encoding = response.encoding
    response._cached_ubody = None  # 清理缓存

scrapy

再或者在scrapy中添加编码补丁

参考：https://www.jianshu.com/p/bb268312839b

# encoding.py
from w3lib import encoding
import chardet
import chardet.charsetprober


_html_body_declared_encoding = encoding.html_body_declared_encoding


def html_body_declared_encoding(html_body_str):
    res = _html_body_declared_encoding(html_body_str)
    if res:
        return res
    guess = chardet.detect(html_body_str)
    if guess and guess['confidence'] > 0.2:
        return guess["encoding"]


encoding.html_body_declared_encoding = html_body_declared_encoding

在spider同级目录init引入encoding（或者把上面补丁直接放在init文件中）

import encoding as _

网友评论

本文标题：爬虫遇到日本编码的网站（解决乱码、解码失败问题）

本文链接：https://www.haomeiwen.com/subject/gimqqltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫遇到日本编码的网站（解决乱码、解码失败问题）

问题：

直接获取到的数据是乱码，用response.text.encode('SHIFT_JIS')进行解码会有些特殊字符无法解码报错。

request解决方法：

response.encoding = response.apparent_encoding

scrapy解决方法：

response._encoding = "SHIFT_JIS"

response._cached_ubody = None

或者

response._encoding = response.encoding

response._cached_ubody = None # 清理缓存

再或者在scrapy中添加编码补丁

相关文章

爬虫遇到日本编码的网站（解决乱码、解码失败问题）

插入数据库出现中文乱码问题

任务4

关于字符串出现的乱码问题

HTML基础知识-乱码、颜色表示方法、meta的作用及常见浏览器

Java 字符编码

unicode编码转中文

计算机编码发展简史

HTML基础

HTML知识点

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读