美文网首页
增加或改变已打开文件的编码

增加或改变已打开文件的编码

作者: LittleBear_6c91 | 来源:发表于2019-05-10 10:43 被阅读0次

问题

你想在不关闭一个已打开的文件前提下增加或改变它的 Unicode 编码。

解决方案

如果你想给一个以二进制模式打开的文件添加 Unicode 编码/解码方式,可以使用io.TextIOWrapper() 对象包装它。比如:

import urllib.request
import io
u = urllib.request.urlopen('http://www.python.org')
f = io.TextIOWrapper(u, encoding='utf-8')
text = f.read()

如果你想修改一个已经打开的文本模式的文件的编码方式,可以先使用 detach()方法移除掉已存在的文本编码层,并使用新的编码方式代替,如果你是windos系统默认的编码不是utf-8需要将编码转换再操作下面的步骤。下面是一个在 sys.stdout上修改编码方式的例子:

这样做可能会中断你的终端,这里仅仅是为了演示而已。

>>> import sys
>>> sys.stdout.encoding
'UTF-8'
>>> sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding='latin-1')
>>> sys.stdout.encoding
'latin-1'
>>>

讨论

I/O 系统由一系列的层次构建而成。你可以试着运行下面这个操作一个文本文件的例子来查看这种层次:

>>> f = open('sample.txt','w')
>>> f
<_io.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'>
>>> f.buffer
<_io.BufferedWriter name='sample.txt'>
>>> f.buffer.raw
<_io.FileIO name='sample.txt' mode='wb'>
>>>

在这个例子中,io.TextIOWrapper 是一个编码和解码Unicode 的文本处理层,io.BufferedWriter 是一个处理二进制数据的带缓冲的 I/O 层,io.FileIO 是一个表示操作系统底层文件描述符的原始文件。增加或改变文本编码会涉及增加或改变最上面的io.TextIOWrapper 层。
一般来讲,像上面例子这样通过访问属性值来直接操作不同的层是很不安全的。例如,如果你试着使用下面这样的技术改变编码看看会发生什么:

>>> f
<_io.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'>
>>> f = io.TextIOWrapper(f.buffer, encoding='latin-1')
>>> f
<_io.TextIOWrapper name='sample.txt' encoding='latin-1'>
>>> f.write('Hello')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ValueError: I/O operation on closed file.
>>>

结果出错了,因为 f 的原始值已经被破坏了并关闭了底层的文件。
detach() 方法会断开文件的最顶层并返回第二层,之后最顶层就没什么用了。例如:

>>> f = open('sample.txt', 'w')
>>> f
<_io.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'>
>>> b = f.detach()
>>> b
<_io.BufferedWriter name='sample.txt'>
>>> f.write('hello')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ValueError: underlying buffer has been detached
>>>

一旦断开最顶层后,你就可以给返回结果添加一个新的最顶层。比如:

>>> f = io.TextIOWrapper(b, encoding='latin-1')
>>> f
<_io.TextIOWrapper name='sample.txt' encoding='latin-1'>
>>>

尽管已经向你演示了改变编码的方法,但是你还可以利用这种技术来改变文件行处理、错误机制以及文件处理的其他方面。例如:

>>> sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding='ascii',
... errors='xmlcharrefreplace')
>>> print('Jalape\u00f1o')
Jalape&#241;o
>>>

相关文章

  • 增加或改变已打开文件的编码

    问题 你想在不关闭一个已打开的文件前提下增加或改变它的 Unicode 编码。 解决方案 如果你想给一个以二进制模...

  • Python中文件编码的检测

    前言: 文件打开的原则是“以什么编码格式保存的,就以什么编码格式打开”,我们常见的文件一般是以“ utf-8 ”或...

  • 基本文件操作

    文件操作流程: 打开文件 -> 操作文件(读/写) -> 关闭文件 打开文件:open(文件路径,打开的方式,编码...

  • nkf查看并转换文件的编码方式

    安装nkf 查看文件的编码方式 改变文件的编码方式为UTF-8 命令总汇

  • pythonIO编程

    文件读写 读文件 opentype表示打开类型,当打开非utf-8编码的文本时要用encoding之处编码方式,当...

  • Python——文件编码

    编码的演变 Python编码 python2 Python指定编码 在文件头部增加 -*-coding:utf8-...

  • Python文件操作

    文件读操作 以读的方式打开文件: 打开文件还可以指定编码方式: 注意: 在windows中文系统中,系统默认的编码...

  • 八 .python对文件的操作

    1.open是打开已存在的文件或新建一个文件(在文件名后需加访问模式) 2.close是把刚刚新建或打开的文件关闭...

  • Python对文件的操作

    1.open是打开已存在的文件或新建一个文件(在文件名后需加访问模式) 2.close是把刚刚新建或打开的文件关闭...

  • 5.Python之文件的基础

    文件 编码 常用编码 Unicode与UTF-8编码字节范围对应关系 文件数据 多行文本 文件的基本处理 打开模式...

网友评论

      本文标题:增加或改变已打开文件的编码

      本文链接:https://www.haomeiwen.com/subject/zldooqtx.html