这里讲的文件读写,是由 Python 提供的最基础的文件读写,主要是对文本文件和二进制文件的读写。
如果想要操作 excel, csv,ymal,xml,json 等特定格式的文件,需要特定的库进行处理。
文本文件:在 windows 上但凡能用记事本正常打开的文件都是文本文件,比如 .txt,.log,.py 等;
二进制文件:可执行文件,图片文件,视频文件等。
Python 提供了 open()
函数用于文件读写。
f = open(文件路径,读写方式)
open() 函数主要参数有两个:
文件路径:包含文件名的路径,如 D:\nemo\io.txt;
读写方式:指定打开文件的模式,比如只读('r'),只写('w'),追加('a')等。
open() 函数会根据读写方式将文件加载到内存中,返回一个文件对象。f 变量就是用来保存这个对象的。所有后续就可以使用 f 变量对该文件进行读写操作。
所有情况下文件操作主要包含如下三个步骤:
- 调用 open() 函数打开文件
- 进行文件操作,读、写、追加等
- 关闭文件
在使用 open() 函数的时候,必须要根据需要使用对应的读写方式:
读写方式 | 操作 | 说明 |
---|---|---|
r | 只读 | 以只读方式打开,文件不存在会报错。默认方式,可以不用写。 |
w | 只写 | 不能读取,只能写入。 文件不存在就创建,文件存在则覆盖(清空原来的内容)。 |
a | 追加 | 不能读取,只能写入,在文件的末尾追加。 文件不存在就创建,文件存在则在末尾追加。 |
x | 新建 | 文件存在则会报错,文件不存在就新建并支持写入。 比 w 方式安全,w 方式会覆盖原有内容,误操作可能造成数据丢失。 |
rb | 二进制只读 | 同 r ,只是操作对象为二进制文件,使用 bytes 类型读。 |
wb | 二进制只写 | 同 w,写入类型必须是 bytes 类型 |
ab | 二进制追加 | 同 a,写入类型必须是 bytes 类型 |
+ | 可读写 | r+,w+,a+,rb+,wb+,ab+,带加号代表既可写也可读 |
文件操作
我们先准备一个文件:
这个文件放在
D:\data\pythonIO
中,文件名为test_read.txt
。
注意,很多人 windows 没有开启扩展名。看到的文件名没有
.txt
后缀,那么一定要开启,文件名+后缀名
才是完整的文件名。如何开启?点我!
好了,文件已经准备好,接下来就使用 Python 代码进行文件操作了。
文件读取
我们先以只读方式打开,读写方式为r
。
f = open(r'D:\data\pythonIO\test_read.txt', 'r')
# 默认是文本只读,所以'r'其实可以不写
data = f.read() # 读取文件所有内容
f.close() # 文件打开必须要关闭
print(data)
'''
Python教程
0基础入门切忌追求大而全
快速掌握必要基础语法
再进行有一定目的和趣味的练习
才能避免从入门到放弃的悲剧
'''
上例中,我们使用了只读r
的方式打开了文件。
Python 中提供的文件读取方法如下:
f.read():
一次性读取文件中所有内容。
read() 方法有一个默认参数 size,用来指定读取的字符数。当文件过大时,一次性读取内存扛不住,就可以使用 read(size) 来循环读取。
还是以上面的例子中的文件为例:
f = open(r'D:\data\pythonIO\test_read.txt', )
print(f.read(8)) # 读取5个字符
# Python教程
f.close()
注意,size 在文本读取时表示字符个数。而以二进制方式打开时,size 表示字节数。
f.readline()
一行行读取,遇到 \n 或 \r\n 等换行符时停止。换行符,我们在文件中看不到,一般只要你通过回车换行,就会自动生成一个换行符。
f = open(r'D:\data\pythonIO\test_read.txt', )
print(f.readline()) # 读取第一行内容
# Python教程
print(f.readline()) # 再次调用,读取第二行
# 0基础入门切忌追求大而全
f.close()
f.readlines()
按行读取所有内容,返回一个列表。文件中的每行内容为列表的一个元素。
f = open(r'D:\data\pythonIO\test_read.txt', )
print(f.readlines()) # 读取第一行内容
# ['Python教程\n', '0基础入门切忌追求大而全\n', '快速掌握必要基础语法\n', '再进行有一定目的和趣味的练习\n', '才能避免从入门到放弃的悲剧\n']
f.close()
这种方式读出为列表,所以可以按照列表的方式灵活处理读取的内容。但是同样也要注意的,这种方法会读取整个文件内容,如果文件过大则可能会占用大量的内存。
文件写入
文件写入有三种方式:
w:覆盖写入,当文件存在时会覆盖文件,文件不存在则创建
a:追加写入,当文件存在时在末尾写入,文件不存在则创建
x:新建文件,当文件存在时报错,文件不存在则创建
以上,读写方式不同,导致会产生不同的结果。如果是 w 方式的话 ,一定要注意文件覆盖。
对于文件写入,主要的方法如下:
f.write()
将内容写入文件,并返回写入的字符数。但是要注意,写入过程都是在内存中进行的,并不会马上体现在文件中,直到 f.close() 的时候,才会将内存中的内容实际写入文件。
f = open(r'D:\data\pythonIO\test_read.txt', 'w+')
f.write('极简教程')
# 4
f.close()
你会发现原来的内容被修改了。
文件指针
文件读写过程中,存在文件指针的概念,当你读取一部分内容后,指针位置就会后移,这样就只能读取后面的内容。
如果你想读取已读取过的内容怎么办呢?也不是没有办法,Python 提供了seek
,tell
两个方法来处理指针。
f.tell()
获取文件指针当前所在的位置。不过要注意的是,它是从文件开头算起,到当前位置的字节数。
f = open(r'D:\data\pythonIO\test_read.txt', 'r')
print(f.read(8)) # 读取8个字符
# Python教程
print(f.tell()) # 打印当前位置
# 10
f.close()
读取了8个字符,但是返回的位置是10。因为我们的文件中有汉字,一个汉字是两个字节。我们读出来的 8 个字符中有两个汉字,所以当前的位置是 10(第 10 个字节)。
f.seek()
通过 f.seek() 方法可以修改指针的位置。这个方法有两个参数,f.seek(target, whence)。target 用于指定修改指针的位置,whence用于指定修改指针位置时从哪里开始计算(0,表示从文件开始,1,表示从当前位置,2,表示从文件末尾。默认为0)
注意,如果文件不是以二进制方式打开,whence 只能取 0,也就是只能从文件开始计算偏移量。
f = open(r'D:\data\pythonIO\test_read.txt', 'r')
f.read(8) # 读取8个字符
# Python教程
f.tell() # 打印当前位置
# 10
f.seek(0) # 移到文件开头
# 0
f.seek(5) # 移到从文件开始算第5个字节位置
# 5
f.seek(-3, 1) # 从当前位置向前移动3个字节,会报错
# io.UnsupportedOperation: can't do nonzero end-relative seeks
f.close()
使用rb方式打开,才能使用 whence 参数的另外两个值,也就是从当前位置或者文件末尾计算。因为一个汉字是两个字符,你如果按字节移动的时候就无法正常读取了。
比如某个汉字占了5和6位字节(一个汉字占两个字节),这时候你移到6,那怎么读呢?读这个汉字的一半?
f = open(r'D:\data\pythonIO\test_read.txt', 'rb')
f.read(8) # 读取8个字节
# b'Python\xbd\xcc'
f.tell() # 打印当前位置
# 8
f.seek(-5,1) # 从当前位置向前移动5个字节
# 3
f.seek(-5, 2) # 从文件末尾向前移动5个字节
# 112
f.seek(0, 2) # 移动到文件末尾
# 117
f.close()
网友评论