欢迎访问个人博客:blog.spursgo.com
关于pyhton2.x中编码问题的一点小理解
大约在一年前,当时接触pyhton爬虫时(那时还是在Windows上开发学习),由于网页中存在大量中文,自然不可避免的会涉及到编码问题。刚刚入门就遇到了python中的一个大麻烦:编码问题,查了一些资料把手上的问题解决之后,就没有去管编码问题了。
一年后,仍然习惯于python2.x。本来在macOS和ubuntu上写得很顺利得一个爬虫程序,转到windows 10上居然出现了大量的乱码。
len.png
从图片中,我们可以可以清楚的看到,一个‘人’字,由于它的类型不一样,当我们取长度时,得到的结果不一样。
现在是不是对字节和字符有了更好的认识了呢?
3. 编码格式的互相转换
decode :解码,实现其他编码格式到unicode的转换
encode :编码,实现unicode到的转换其他编码格式
常见的其他编码格式:utf-8,gbk,gb2312
这是有一个问题我们一定要重视:decode既然是其他编码格式到unicode的转换,达到解码的目的,也就是说unicode本身不是一种编码格式。因此,我们在进行编码与解码的时候,我们要弄清楚,这个被操作的对象是谁?否则,出现编码问题的几率会大大增加。
4. unicode的深刻理解
unicode实际上是一种字符集,神奇之处在于所有语言的字符都用这一种字符集来表示,它是全人类都承认的一种统一标准。unicode映射了各种字符应该用哪种方式来表示,而没有指明具体的传输和储存方式,这个工作是由utf来完成的,如utf-8,utf-16。
5. 编码解码前后的差别
一个str类型的字节串解码后就成了unicode的字符串,相反,一个unicode类型的字符串解码后就成了str的字节串。
以下是我的实验代码:
#coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
country = '中国'
print type(country)
print country
country = country.decode('utf-8')
print type(country)
print country
country = country.encode('gbk')
print type(country)
print country
下面是执行结果:
class.png实验结果很好的验证了刚刚的结论。
6. 建议
6.1 更改文本编码格式
#coding:utf-8
6.2 更改程序默认编码格式
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
6.3 尽可能的采用unicode作为过渡,输出时编码为需要的编码格式
文/浅斟低唱
网友评论