python3.x中以&#开头的unicode编码字符串打印成中

作者: 若雨千寻 | 来源:发表于2018-09-30 15:05 被阅读0次

python3.x中以&#开头的unicode编码字符串打印成中
Java字符串编码
Python中的字符串编码
python中，把‘&#’ ‘&#x开头的字符串转换成中文
2018-11-08
Day03-字符串
Python3之基础语法
C++ _T()/_L()函数
python2与python3中字符串的一些区别
Python2.7编解码问题总结

近日在爬取X事百科的页面时遇到了以&#开头的字符串如下形式:

&#21040;&#39046;&#23548;&#23478;&#36865;&#31036;&#65292;&#36865;&#23436;&#22836;&#19979;
&#27004;&#20934;&#22791;&#36208;&#20154;&#65292;&#32467;&#26524;&#36710;&#34987;&#29289;
&#31649;&#38145;&#20102;&#65292;&#25105;&#29289;&#31649;&#38463;&#23016;&#35828;&#65306;
&#22823;&#22992;&#65292;&#25105;&#23601;&#20572;&#20102;&#20998;

之前工作中也遇到过这种编码形式的文件，但是都没有太在意，这次为了看清打印的到底是什么汉字，我决定一探究竟，尝试了多种编解码都无法打印出汉字，所以我决定启动百度大法(尽情鄙视我没用Google吧！)，一通乱搜之后发现原来为unicode的另一种形式如下图；验证地址:

unicode转中文.png
至于这种到底是什么情况这里说的比较清楚，我就不展开说了！

而平时我们用到的unicode大抵都是\u开头的形式如下：
\u9996\u90fd\u5317\u4eac

既然确定了是unicode，那么如何打印出中文呢？
这里就需要用到python自带的html库：
使用如下：

import html

print(html.unescape('&#20013;&#22269;'))
#中国

至此终于解决了打印看不出文字内容的问题!

参考地址:
https://my.oschina.net/liuyuantao/blog/1154544
https://bbs.csdn.net/topics/380009478

网友评论

本文标题：python3.x中以&#开头的unicode编码字符串打印成中

本文链接：https://www.haomeiwen.com/subject/bkswoftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

python3.x中以&#开头的unicode编码字符串打印成中

相关文章

python3.x中以&#开头的unicode编码字符串打印成中

Java字符串编码

Python中的字符串编码

python中，把‘&#’ ‘&#x开头的字符串转换成中文

2018-11-08

Day03-字符串

Python3之基础语法

C++ _T()/_L()函数

python2与python3中字符串的一些区别

Python2.7编解码问题总结

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读