爬虫后乱码的原因:基本上是源码的编码方式与我们爬取下来后存储的编码方式不一致。
爬取的所有网页无论何种编码格式,都转化为utf-8格式进行存储,与源代码编码格式不同所以出现乱码
image.png
def get_biqukan():
url='https://www.biqukan.com/0_243/530251298.html'
rep=requests.get(url)
print("保存后的编码:",rep.encoding)
print("猜测的源码的编码方式",rep.apparent_encoding) # 猜测的源码的编码方式
rep.encoding = "gbk"
print(rep.text)
网友评论