美文网首页
一次Jenkins+Python的中文乱码趟坑

一次Jenkins+Python的中文乱码趟坑

作者: _Walker__ | 来源:发表于2021-08-09 19:02 被阅读0次

    环境

    • Windows
    • Jenkins(Pipeline+bat)
    • Python 3.6(后面简写Py)
    • Unity

    下面的过程分析比较凌乱,可以直接到最后看结论


    问题点

    1. Python调用Unity打包,传递的中文名乱码
    2. Jenkins中Console Output里中文显示乱码
      • Jenkins自己的输出乱码
      • Jenkins输出的Py Log乱码
      • Py中的Log文件乱码

    问题现象

    Jenkins乱码 Python Log乱码 Jenkins bat encoding=utf8

    过程

      发现问题,我第一时间找度娘,发现好多人在写这个问题,给了一大堆方案,基本都是配置环境的。配置项有LANG、JAVA_TOOL_OPTIONS、PYTHONIOENCODING等等;配置的位置有人说在Jenkins的Global Environment variables,有人说要配到系统的环境变量里,也有人说要改jenkins.xml。
      上面这些方法我都试了,均无效!!当然有博主自己写说生效了,可能环境上还是有未知的差异吧。没有大腿可抱的情况下,只能自己蒙了。

    1、分析乱码原因

      出现乱码肯定是编码不对,但究竟是怎么不对的,要搞清楚正确的(文字实际用的编码)是什么,错误的(显示时使用的编码)是什么。可观测到现象有下面几个:

      1. Jenkins中显示bat调用命令里的中文就是乱码
      1. Py UTF8的Log也是乱码,且跟上面显示的乱码内容一致
      1. Jenkins中bat指定encoding=utf8后,Jenkins自身的Log正常显示中文;而其显示的Py Log还是乱码,并且乱码变了

      从1、3推断,Jenkins默认显示用的编码是GBK,文字自身的编码是UTF8。但这跟2的现象似乎是冲突的,因为Log文件本身是UTF8编码,而其显示的出来的也是乱码,且跟Jenkins的一致。
      这时候做个简单的实验来验证结论。用Notepad++建一个UTF8的文件,里面写上“中文”俩字,然后用ANSI编码去看。

    UTF8编码的“中文” 显示为ANSI(GBK)的“中文”

      实验证实了上面推断的正确性,那么Log里的乱码又是为什么呢?在上面的Log里展示了原因,Py中stdio的编码为cp936(也就是GBK)。这个情况是,Jenkins将UTF8的命令行传给了Py,然后Py用GBK解析,并转码为内部的UTF8,最后用UTF8输出Log。

    2、解决问题

      原因找到了,接下来就是解决问题。既然外部配置都无效,只能在Py内部处理了。我第一反应是,错误的编码在里面逆向纠正就好了。
      我尝试的方案是处理sys.argv里记录的内容:

    1. 将错误的UTF8 str,用GBK encode为bytes
    2. 然后再将bytes,用UTF8 decode为str

      我先用“Pok2盟友”做测试,发现问题解决了。欣喜的跑上面“中文”,结果直接报错程序挂了Orz...,我还天真的以为是Py检查严格给了报错,让它跳过检查就好了。于是加了errors="ignore"参数,忽略报错,decode完输出空白了,结果啥也不是。
      仔细想想,不匹配的转码其实是“有损的”,因为两种编码使用的字节数不同。“中文”用GBK是4bytes,UTF8是6Bytes。忽略报错后,Py应该会把无法解码的byte直接丢弃。UTF8=》GBK丢失一部分内容;GBK=》UTF8又丢弃一些,最后直接丢没了。
      到这里我主观上能想到的解决方案已经没了,走投无路!!!
      在我麻木的Google过程中,鬼使神差般又去尝试了一下chcp,结果成功了!!!真的成功了,一切问题都得到解决!!!
      chcp在很早之前就尝试过,当时写法是

    bat "chcp 65001 & ClientDist xxx"
    

    这次想尝试分两行写,然后就成了~

    bat '''chcp 65001
    ClientDist xxx'''
    

    各问题解决方案总结

      上面过程描述其实不完整(中间尝试了各种方向,细节实在太多),甚至还有些凌乱,所以最后,清晰的总结下:

    1、Jenkins Console Output显示bat命令乱码

    调用bat的时候添加encoding参数

    bat encoding: 'utf8', script: '调用指令'
    
    2、Jenkins Console Output显示Python Log乱码

    Python里将stdout、stderr的编码改成UTF-8
    这里补充一点:Jenkins bat调用Python的时候stdin、stdout、stderr的编码都是cp936

    sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
    sys.stderr = io.TextIOWrapper(sys.stderr.buffer, encoding='utf-8')
    
    3、Jenkins bat传递给Python的中文参数乱码

    调用bat的时候,用chcp修改命令行编码。一定要分行写!!!
    注意,下面是 3个单引号 的字符串

    bat '''chcp 65001
    调用指令'''
    

    做完上面的处理,应该所以内容都处于UTF8的状态下。

    相关文章

      网友评论

          本文标题:一次Jenkins+Python的中文乱码趟坑

          本文链接:https://www.haomeiwen.com/subject/igdxeltx.html