美文网首页
python3.x中以&#开头的unicode编码字符串打印成中

python3.x中以&#开头的unicode编码字符串打印成中

作者: 若雨千寻 | 来源:发表于2018-09-30 15:05 被阅读0次

    近日在爬取X事百科的页面时遇到了以&#开头的字符串如下形式:

    到领导家送礼,送完头下
    楼准备走人,结果车被物
    管锁了,我物管阿姨说:
    大姐,我就停了分
    

    之前工作中也遇到过这种编码形式的文件,但是都没有太在意,这次为了看清打印的到底是什么汉字,我决定一探究竟,尝试了多种编解码都无法打印出汉字,所以我决定启动百度大法(尽情鄙视我没用Google吧!),一通乱搜之后发现原来为unicode的另一种形式如下图;验证地址:

    unicode转中文.png
    至于这种到底是什么情况这里说的比较清楚,我就不展开说了!

    而平时我们用到的unicode大抵都是\u开头的形式如下:
    \u9996\u90fd\u5317\u4eac

    既然确定了是unicode,那么如何打印出中文呢?
    这里就需要用到python自带的html库:
    使用如下:

    import html
    
    print(html.unescape('中国'))
    #中国
    

    至此终于解决了打印看不出文字内容的问题!

    参考地址:
    https://my.oschina.net/liuyuantao/blog/1154544
    https://bbs.csdn.net/topics/380009478

    相关文章

      网友评论

          本文标题:python3.x中以&#开头的unicode编码字符串打印成中

          本文链接:https://www.haomeiwen.com/subject/bkswoftx.html