今天闲的无聊,找个小说看看,但是在爬的过程中出现乱码,如下图
image
猜想是编码问题,打印当前的编码
req = session.get(url)
print(req.encoding)
结果是
ISO-8859-1
询问大佬,得以解决
req.encoding = req.apparent_encoding
print(req.encoding)
结果是GB2312
问题解决
但是这个自动取编码很影响效率还是别用了 直接指定较好
req.encoding = 'GB2312'
以后想知道 编码是啥 去源码里 搜 charset 字段
或者
print(ret.apparent_encoding)
然后在指定一下就好了
网友评论