美文网首页
Python爬虫学习5-字符串编码

Python爬虫学习5-字符串编码

作者: MingSha | 来源:发表于2017-04-01 20:24 被阅读0次

计算机只能处理数字,文本转换为数字才能处理,计算机中8个bit作为一个字节,所以一个字节能表示的最大数字就是255
计算机是美国人发明的,所以一个字节就可以标识所有单个字符
,所以ASCII(一个字节)编码就成为美国人的标准编码
ASCII处理中文明显不够,中文不止255个汉字,所以中国制定了GB2312编码,用两个字节表示一个汉字。GB2312将ASCII也包含进去了。同理,日文,韩文,越来越多的国家为了解决这个问题就都发展了一套编码,标准越来越多,如果出现多种语言混合显示就一定会出现乱码.

unicode出现了,它将所有语言包含进去了。

ASCII和unicode编码:
字母A用ASCII编码十进制是65,二进制 0100 0001
汉字"中" 已近超出ASCII编码的范围,用unicode编码是20013二进制是01001110 00101101
A用unicode编码只需要前面补0二进制是 00000000 0100 0001
乱码问题解决的,但是如果内容全是英文,unicode编码比ASCII编码需要多一倍的存储空间,传输也会变慢。
所以此时出现了可变长的编码"utf-8" ,把英文:1字节,汉字3字节,特别生僻的变成4-6字节,如果传输大量的英文,utf8作用就很明显。
读取文件,进行操作时转换为unicode编码进行处理,保存文件时,转换为utf-8编码。以便于传输读文件的库会将转换为unicode

python2 默认编码格式为ASCII,Python3 默认编码为 utf-8

import sys
print(sys.getdefaultencoding())

即可得结果为utf-8

相关文章

  • Python爬虫学习5-字符串编码

    计算机只能处理数字,文本转换为数字才能处理,计算机中8个bit作为一个字节,所以一个字节能表示的最大数字就是255...

  • 2018-11-08

    今天,我们深入学习了字符串。学习了字符串编码: python中的字符采用的是Unicode编码 a.什么是编码 ...

  • python编码

    python编码 python编码简介 字符串在Python内部的表示是unicode编码,因此,在做编码转换时,...

  • python学习随便

    Python学习__字符串编码 对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()...

  • python 高级方法

    Python的字符串类型 字符编码方法 查看Python中的字符串编码名称,查看系统的编码 源文件字符集编码声明:...

  • Python中的字符串编码

    Python中的字符串编码 定义字符串 Python 中存在两种编码方式的字符串:ASCII 和 Unicode。...

  • Python爬虫学习(十六)初窥Scrapy

    Python爬虫学习(一)概述Python爬虫学习(二)urllib基础使用Python爬虫学习(三)urllib...

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • Python编码问题

    默认编码 字符串 python2 文本字符串默认编码是ASCII,中文默认UTF-8python3 文本字符串默认...

  • python的unicode编码问题(以正则表达式为例)

    unicode是python的内部编码。字符串在Python内部的表示是unicode编码,因此,在做编码转换时,...

网友评论

      本文标题:Python爬虫学习5-字符串编码

      本文链接:https://www.haomeiwen.com/subject/oxkwottx.html