1、Unicode在很长一段时间内无法推广,直到互联网的出现?
我的理解是由于互联网的出现,全世界说着各种语言的人,需要大频次的交流,导致了语言的编解码问题。
2、unicode是一个码表(全世界每一个已知的符号均有一个一一对应的码(4个16进制的数))
3、py开头和ide中当前类(setting——》file encoding——》右边的加号)都设置都是utf-8,那么当从键盘输入“中”时,将“中”的unicode码使用utf-8的方式存储起来,“中”对应的unicode码使用utf-8对应的值是3个字节(所以使用len("中”)是3),而setting——》file encoding——》project encoding 包含了下面控制台的编码,如果这里也使用utf—8的编码方式,那两者的编码方式方式一样,字就不会乱码(我理解的是都转回unicode,然后在查码表)
4、如果py 开头和ide中当前类设置的是gbk或者gb2312,那就利用这个码表将“中”转化为相应的字节串,如果project encoding设置的utf-8,那么就需要将“中”解码为unicode,或解码为unicode,然后编码为utf-8(从这里看utf-8编码后的值和unicode 值,utf-8都认识
5、windows 系统默认的是gbk ,可以使用cmd 输入“chcp”对应的936就是gbk,其他系统默认的不是gbk
6、从电脑中直接度过来的语句就是电脑默认的编码格式,就是系统默认的编码格式,除非是之前另存过其他编码格式,而在pycharm中直接输入的语句就是当前的编码格式。
网友评论