美文网首页
Unix文本多^M的问题

Unix文本多^M的问题

作者: Zeda_BAE | 来源:发表于2019-05-16 11:39 被阅读0次

    结构化解决问题的步骤
    1、识别问题:明确具体是什么问题。
    2、定义问题:将问题分解成可管理的小问题。
    3、调查:收集数据和信息。
    4、分析:找出问题的根本原因。
    5、解决:从众多解决方案中选择最合适的一个。
    6、检查解决方案:确认是否已经解决了问题。

    最近,测试本地飞行计划引擎服务器时,从Windows系统下生成了一个.txt文件,上传到UNIX服务器上后,每行数据末尾多了很多^M。折腾了一翻终于解决,备忘一下吧。

    一、识别问题:明确具体是什么问题

    1、明确具体是什么问题?
    后台测试数据时反馈数据有异常,多了很多异常字符:

    UNIX系统下多了很多^M

    检查Windows系统下的原文件,并未发现异常:


    Windows原文件正常

    2、什么情况下出现的?
    文件从Windows通过winscp传送到UNIX服务器上后出现的问题。

    二、定义问题:将问题分解成可管理的小问题

    通过将问题分解成可管理的小问题,进一步定位最本质的问题。
    针对本问题,具体步骤如下:
    1、提供的原文件有问题?
    经认真检查,并咨询同产品客户,确认原文件不存在问题。

    2、传输过程有问题?
    惯用的工具,传输稳定性、完整性和可靠性可以得到保障,但也不确保传输工具设置的问题。

    3、UNIX服务器文件有问题?
    有这种可能,需要进一步分析、排除。

    三、调查:收集数据和信息

    1、搞清楚业务系统之间逻辑。
    通过咨询供应商和相关专家,了解到详细的系统逻辑,进一步分析每一个可能出错的环节。

    2、从问题提示入手

    根据提示的信息查询相关资料,找出可能的原因。
    网上类是问题很多,均指向系统间的兼容性。

    四、分析:找出问题的根本原因

    通过汇总分析及供应商协助:清晰定位问题,初步制定以下解决方案。

    问题根本原因

    Window系统中用/r/n来表示换行,linux和UNIX中用/n来表示换行,Windows的文本文件,直接拿到linux和UNIX中使用可能会会出错,因为多出了“/r”字符,这就是我们看到的^M。

    DOS/Windows和Linux/Unix的文件换行回车格式不同,基于 DOS/Windows的文本文件在每一行末尾有一个 CR (回车)和 LF (换行),而 UNIX 文本只有一个换行。

    LF: Line Feed, U+000A 正则表达式:/n
    LCR: Carriage Return, U+000D 正则表达式:/r
    Windows中的换行符为CRLF, 即正则表达式的\r\n(ASCII码为13和10), 而Unix(或Linux)换行符为LF, 即正则表达式的\n。
    在Windows和Linux下协同工作的时候, 往往这个细小的差别就导致问题

    解决方案:网上给出了很多种方法。

    ✔方法1:windows上传unix时,WinScp选择ASCII方式传输。
    FTP有ASCII和Binary两种传输模式。
    Binary模式不会对数据进行任何处理。
    AscII模式会将回车换行转换为本机的回车字符。
    由于WINDOWS和UNIX的行结束符不一样。所以从WINDOWS用Binary传输方式传输文本文件到UNIX时可能会出现^M。同样从UNIX用Binary方式传输文件到WINDOWS时,也可能出现回车换行显示不正确的问题。

    方法2:dos2unix工具(最常用的方法)
    在终端下敲命令:

    dos2unix filename 
    

    直接转换成unix格式,就OK了!

    方法3:利用VIM的命令行
    用vim打开需要修改的文件,输入‘:’,进入命令模式下输入:

    %s/^M//g 
    

    然后,回车即可替换。
    解释:
    % 指匹配整个文件,s 是置换的意思,其中”^M”在vim下的输入分别是“Ctrl+v<----> ^”、“Ctrl+M<----> M”键生成的,M 后面的 $ 代表匹配行尾的内容。最后的 g 则表示每行中匹配到的内容都要置换。

    方法4: 使用vi打开文本文件
    vi dos.txt
    命令模式下输入

    :set fileformat=unix 
    :w 
    

    方法5: 使用sed 工具

    sed ’s/^M//’ filename > tmp_filename 
    

    方法6: 既然window下的回车符多了‘\r’,那么当然通过删除‘\r’ ,也可以实现:

     tr -d ‘\r’ 
    

    五、解决:从众多解决方案中选择最合适的一个

    通过修改WinSCP设置为ASCII模式传输。 WinSCP设置为ASCII模式传输

    六、检查解决方案:确认是否已经解决了问题

    经验证,业务数据已能正常导入。
    至此,问题解决~!

    总结
    Windows和Linux或UNIX中文件的换行符的不同,导致文件见的一些“不兼容”问题,通过unix2dos 和dos2unix来实现互相转换。

    七、后续问题:确认是否有待进一步完善的问题

    如何在每次使用WinSCP传输完数据后都不忘记进行转换,这需要进一步思考一个长效的解决办法。





    补充知识:[Linux命令学习总结:dos2unix - unix2dos]

    命令简介:

    dos2unix是将Windows格式文件转换为Unix、Linux格式的实用命令。Windows格式文件的换行符为\r\n ,而Unix&Linux文件的换行符为\n. dos2unix命令其实就是将文件中的\r\n 转换为\n。

    而unix2dos则是和dos2unix互为孪生的一个命令,它是将Linux&Unix格式文件转换为Windows格式文件的命令。

    命令语法:

    dos2unix [options] [-c convmode] [-o file ...] [-n infile outfile ...]
    unix2dos [options] [-c convmode] [-o file ...] [-n infile outfile ...]

    命令参数:

    此命令参数是Red Hat Enterprise Linux Server release 5.7下dos2unix命令参数,不同版本Linux的dos2nnix命令参数有可能不同。


    相关文章

      网友评论

          本文标题:Unix文本多^M的问题

          本文链接:https://www.haomeiwen.com/subject/gmubaqtx.html