美文网首页python
python爬虫后乱码

python爬虫后乱码

作者: 迷糊银儿 | 来源:发表于2019-11-18 21:59 被阅读0次

    爬虫后乱码的原因:基本上是源码的编码方式与我们爬取下来后存储的编码方式不一致。

    爬取的所有网页无论何种编码格式,都转化为utf-8格式进行存储,与源代码编码格式不同所以出现乱码


    image.png
    def get_biqukan():
        url='https://www.biqukan.com/0_243/530251298.html'
        rep=requests.get(url)
        print("保存后的编码:",rep.encoding)
        print("猜测的源码的编码方式",rep.apparent_encoding)  # 猜测的源码的编码方式
        rep.encoding = "gbk"
        print(rep.text)
    

    相关文章

      网友评论

        本文标题:python爬虫后乱码

        本文链接:https://www.haomeiwen.com/subject/thkiictx.html