美文网首页
对于Python3爬虫抓取网页中文出现输出乱码

对于Python3爬虫抓取网页中文出现输出乱码

作者: 江魁 | 来源:发表于2017-11-27 12:18 被阅读0次

    对于Python3爬虫抓取网页中文出现输出乱码

    import urllib.request

    response = urllib.request.urlopen('http://www.baidu.com')

    html = response.read()

    print(html)

    上面的代码正常但是运行的时候结果遇到中文会以\xe7\x99\xbe\xe5\xba\xa6\xe4\xb8\x80代替,这是一种byte字节。

    python 3输出位串,而不是可读的字符串,需要对其进行转换

    使用str(string[, encoding])对数组进行转换

    str(response.read(),'utf-8')

    import urllib.request

    response = urllib.request.urlopen('http://www.baidu.com')

    html =str(response.read(),'utf-8')

    print(html)

    参考文章:

    http://blog.sina.com.cn/u/3951225433

    相关文章

      网友评论

          本文标题:对于Python3爬虫抓取网页中文出现输出乱码

          本文链接:https://www.haomeiwen.com/subject/usgrbxtx.html