美文网首页
使用python批量转换编码时多余换行的问题

使用python批量转换编码时多余换行的问题

作者: 写一点是一点 | 来源:发表于2022-10-08 16:18 被阅读0次

最近使用python批量将项目中的GBK编码文件转换为UTF8时遇到了会自动给每一行结尾多添加一个换行符的问题这样会导致多行宏命令失效
原因是使用文本读写模式 ‘w’ ‘r’
修改为使用 ‘wb’ ‘rb’ 使用二进制接收在使用utf8编码为str然后以二进制方式写入就可以了
完整脚本如下

import os
import sys
import codecs
import chardet
 
 
def get_file_extension(file):
    (filepath, filename) = os.path.split(file)
    (shortname, extension) = os.path.splitext(filename)
    return extension
 
 
def get_file_encode(filename):
    with open(filename, 'rb') as f:
        data = f.read()
        encoding_type = chardet.detect(data)
        # print(encoding_type)
 
    return encoding_type
 
 
def process_dir(root_path):
    for path, dirs, files in os.walk(root_path):
        for file in files:
            file_path = os.path.join(path, file)
            process_file(file_path, file_path)
 
 
def process_file(filename_in, filename_out):
    """
    filename_in :输入文件(全路径+文件名)
    filename_out :保存文件(全路径+文件名)
    文件编码类型: 'windows-1251','UTF-8-SIG'
    """

    extension = get_file_extension(filename_in).lower()
    if not (extension == '.c' or extension == '.h' or extension == '.cpp' or extension == '.hpp'):
        return
 
    # 输出文件的编码类型
    dest_file_encode = 'utf-8'
    encoding_type = get_file_encode(filename_in)
    src_file_encode = encoding_type['encoding']
   
    if src_file_encode == 'utf-8':
        return
    elif src_file_encode is None:
        src_file_encode = 'windows-1251'
 
    print("[Convert]File:" + filename_in + " from:" + encoding_type['encoding'] + " to:UTF-8")
 
    try:
        with codecs.open(filename=filename_in, mode='rb', encoding=src_file_encode) as fi:
            data = fi.read().encode(dest_file_encode)
            with open(filename_out, mode='wb') as fo:
                fo.write(data)
                fo.close()
 
        with open(filename_out, 'rb') as f:
            data = f.read()
            print(chardet.detect(data))
    except Exception as e:
        print(e)
 
 
def dump_file_encode(root_path):
    for path, dirs, files in os.walk(root_path):
        for file in files:
            filename = os.path.join(path, file)
            with open(filename, 'rb') as f:
                data = f.read()
                encoding_type = chardet.detect(data)
                print("FILE:" + file + " ENCODE:" + str(encoding_type))
 
 
def convert(path):
    """
    批量转换文件编码格式
    path :输入文件或文件夹
    """
    # sys.argv[1], sys.argv[2]
    if os.path.isfile(path):
        process_file(path, path)
    elif os.path.isdir(path):
        process_dir(path)
 
 
if __name__ == '__main__':
    convert(r'C:\work')
    #dump_file_encode(r'')

相关文章

  • python批量查看修改文件编码

    使用python批量查看文件编码,或者批量修改文件编码 代码 结果 查看文件编码 执行编码转换 再次查看转换后的编码

  • python编码

    python编码 python编码简介 字符串在Python内部的表示是unicode编码,因此,在做编码转换时,...

  • python的unicode编码问题(以正则表达式为例)

    unicode是python的内部编码。字符串在Python内部的表示是unicode编码,因此,在做编码转换时,...

  • learning

    python在终端进行文件的运行在终端输入 python test.py 时间时间的转换 编码python编码问题

  • 职场办公|Excel批量编码

    01 问题描述 上回说到,使用Python,在ArcGIS中批量进行编码。那本次就分享如何在Excel中完成类似的...

  • 2019-10-08 使用iconv批量转换文件编码

    使用windows命令和iconv.exe批量转换文件编码 项目中遇到一个问题,本地的txt文件上传到onedri...

  • python 转换文件编码格式成utf8

    使用python转换文件编码。写中途遇到问题 不知道文件具体是什么编码 str和unicode没理清,str是字节...

  • Python编码规范

    Python编码规范 1 排版 1.1 Indentation缩进 在参数过多时适当缩进 换行应该使用同级的缩进...

  • python 小工具

    python 批量更改文编码import os# 更改文件编码def recoding(filename): ...

  • Python_字符串编码问题

    字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即...

网友评论

      本文标题:使用python批量转换编码时多余换行的问题

      本文链接:https://www.haomeiwen.com/subject/hvngartx.html