美文网首页
python使用requests爬取网页时,中文乱码

python使用requests爬取网页时,中文乱码

作者: 小鬼客 | 来源:发表于2019-03-02 17:25 被阅读0次

    使用requests 在爬去一个网站数据时,对于中文出现乱码的情况,解决的方式:
    首先:
    出现乱码的原因,就是IDE的编码方式和网页的编码方式不一致
    其次:
    如何确定网站的编码方式呢?

    1. F12,直接查看网页的head下<meta >中的charset属性,
    2. 使用python的chardet库,
    import chardet
    print(chardet.detect(html.content))
    
    结果:
    {'encoding': 'GB2312', 'language': 'Chinese', 'confidence': 0.99}
    编码格式为: GB2312
    

    最后:
    解决方式:

    1.
    html.content.decode('gbk')
    # 将内容解码用gbk
    
    2.requests爬虫时,建议使用此种方式,如果遇到乱码问题🐷
    html.encoding = 'gbk'
    print(html.text)
    # 指定html.text的编码方式
    

    相关文章

      网友评论

          本文标题:python使用requests爬取网页时,中文乱码

          本文链接:https://www.haomeiwen.com/subject/eocyuqtx.html