美文网首页
day10-字符编码和文件处理(1)

day10-字符编码和文件处理(1)

作者: 天行_b6d0 | 来源:发表于2020-07-16 16:25 被阅读0次

字符编码

一:储备知识

1、程序运行与三大核心硬件的关系
程序的代码是存放于硬盘中的,程序运行时,首先从硬盘读出数据到内存,cpu从内存中读取数据并运行其中的指令。

2、python程序运行的三个步骤
python3 D:\a.py
(1)、先启动python解释器
(2)、解释器会将a.py的内容当成普通内存从硬盘读入内存,此时没有语法意义
(3)、解释器会解释执行刚刚读入内存的内存,开始识别python语法

二:什么是字符编码

字符---------(标准)---------------数字
字符编码表:存放的是字符与数字的对应关系
1、ASCII:只能识别英文字符
特点:采用8bit对应一个英文字符
8bit=>>1Byte
2、GBK:可以识别中文字符串与英文字符
特点:采用16bit对应字符,该字符可以是英文字符、也可以是中文字符
3、shift-JIS
特点:可以识别日文和英文
4、unicode:可以识别万国字符
特点:2Bytes对应一个字符

字符----->>unicode格式的数字
|
GBK shiftJIS

中文字符、英文字符------------》unicode二进制数-----------》gbk二进制数
日文字符、英文字符------------》unicode二进制数-----------》shiftJIS二进制数
韩文字符、英文字符------------》unicode二进制数-----------》Euc-kr二进制数
万国字符------------》unicode二进制数-----------》utf-8二进制数

5、utf-8(缩减版的unicode)
1Byte对应英文字符
3Byte对应一个中文字符

三、字符编码发展

1、群雄割据:
英文字符--------------内存:ASCII二进制数--------------->硬盘:ASCII二进制数
中文英文字符--------------内存:GBK二进制数--------------->硬盘:GBK二进制数
日文英文字符--------------内存:shiftJIS二进制数--------------->硬盘:shiftJIS二进制数
韩文英文字符--------------内存:Euc-Kr二进制数--------------->硬盘:Euc-Kr二进制数

2、过渡阶段:
中文英文字符------------内存:unicode=========gbk============>硬盘:GBK二进制数
日文英文字符------------内存:unicode=========shifJIS========>硬盘:shiftJIS二进制数
韩文英文字符------------内存:unicode=========Euc-Kr=========>硬盘:Euc-Kr二进制数
万国字符----------------内存:unicode=========utf-8==========>硬盘:utf-8二进制数

内存固定使用:unicode
我们可以改变的是从内存写入硬盘采用的编码格式

3、分久必合:
万国字符----------------内存:unicode=========utf-8==========>硬盘:utf-8二进制数
万国字符----------------内存:utf-8==========================>硬盘:utf-8二进制数

四、乱码和解决办法

乱码问题:
1、存的时候乱了:采用的字符编码表无法识别输入的字符
存的时候就已经乱了,是无法补救的,取的时候一定也乱了
解决方法:存入硬盘的编码格式应该用utf-8格式

2、存的时候没有乱码:采用的字符编码表可以识别输入的字符
但是取的时候乱码了:采用的字符编码表与当初存的时候用的不是同一张表
解决方法:存的时候用什么编码,取的时候一定要用同样的编码格式

与运行python程序有关的乱码问题:
1、保证运行python程序的前两个阶段不乱码
在python文件的开头加一行:
#coding:文件存的时候用的编码格式

2、保证第三个阶段不乱码:
使用python3
如果使用的是python2,应该在符串前加前缀u
ps:
在python3中字符串类型的值在内存中都是unicode格式的数字
在python2中字符串类型的值在内存中都是文件头指定编码格式的数字
x=u"上" # 如果在字符串前加前缀u就把字符串强制存成unicode格式,推荐使用print([x,])

文件处理

1、什么是文件
文件是操作系统提供给用户/应用程序操作硬盘的一个虚拟单位

2、为何要用文件
存取硬盘必须使用文件

3、如何用文件
f = open(文件路径,打开模式)
f.write(数据)
f.close()

4、文件的路径
(1)、绝对路径
windows系统中
类似于: D:\abc\ab\a.txt 就是绝对路径
linux系统中
类似于: /a/b/c/d.txt 为绝对路径
注意:在写绝对路径时一定要在路径前面加r以防止转义
(2)、相对路径
aiqiyi.a.txt a.txt 查找同一文件下的某个文件可以使用相对路径

相关文章

  • day10-字符编码和文件处理(1)

    字符编码 一:储备知识 1、程序运行与三大核心硬件的关系程序的代码是存放于硬盘中的,程序运行时,首先从硬盘读出数据...

  • Java 中的 Unicode 编码

    1. .java 文件和 .class 文件的字符编码 java 源文件 (.java) 和编译后的 .class...

  • Python正式课第十三天

    一、文件操作与字符编码 1. 字符编码 编码 将字符转换为对应的二进制序列的过程叫做字符编码(字符->二进制01)...

  • python3 (1)基础语法

    1、编码 python3 源码文件默认UTF-8编码,字符串Unicode字符串。可以不在py文件制定编码,pyt...

  • Python基础之文件处理(二)

    Python基础文件处理 python系列文档都是基于python3 一、字符编码 在python2默认编码是AS...

  • Python学习第七章

    文件的使用 python能够以文本和二进制两种方式处理文件二进制文件直接由比特0和比特1组成,没有统一字符编码,文...

  • Python-文件操作

    字符编码 文件操作 基础读 基础写 with语法 操作模式 游标操作 文件的遍历 字符编码: 三种字符串: 文件操...

  • 2018-12-03

    用代码实现文件中字符的编码和译码

  • 字符编码与python字符串

    python字符串与字符编码 字符编码 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。...

  • Java内存中的文本编码

    1、编码简介 1.1 概念简析:字符、字符集、编码字符集、Code Point、Code Unit和字符编码格式 ...

网友评论

      本文标题:day10-字符编码和文件处理(1)

      本文链接:https://www.haomeiwen.com/subject/nsadhktx.html