近日在爬取X事百科的页面时遇到了以&#开头的字符串如下形式:
到领导家送礼,送完头下
楼准备走人,结果车被物
管锁了,我物管阿姨说:
大姐,我就停了分
之前工作中也遇到过这种编码形式的文件,但是都没有太在意,这次为了看清打印的到底是什么汉字,我决定一探究竟,尝试了多种编解码都无法打印出汉字,所以我决定启动百度大法(尽情鄙视我没用Google吧!),一通乱搜之后发现原来为unicode的另一种形式如下图;验证地址:
至于这种到底是什么情况这里说的比较清楚,我就不展开说了!
而平时我们用到的unicode大抵都是\u开头的形式如下:
\u9996\u90fd\u5317\u4eac
既然确定了是unicode,那么如何打印出中文呢?
这里就需要用到python自带的html库:
使用如下:
import html
print(html.unescape('中国'))
#中国
至此终于解决了打印看不出文字内容的问题!
参考地址:
https://my.oschina.net/liuyuantao/blog/1154544
https://bbs.csdn.net/topics/380009478
网友评论