美文网首页
使用awk去掉每一行两端的空格

使用awk去掉每一行两端的空格

作者: Swifer | 来源:发表于2019-01-23 20:31 被阅读47次
    首先为什么会有这个需求?

    因为我在用结巴做分词的时候,发现,用python的readlines()对每一行进行分词,比用python的read读取整个文件然后直接进行分词,速度要慢10倍

    但是用read读取,就相当于把整篇文章看成“一句话”,然后对分词的结果进行join的时候,就会在每两句之间多了一个空格。

    即,在除了首行和尾行之外,在每一行的行首和行尾,都多了一个空格。如图所示:


    image.png
    解决方法很简单,就是去掉行首与行尾的空格嘛。java好久没用了,python又太慢,linux的awk指令是最理想的选择,简单、高效。
    strip.awk
    ### awk -f strip.awk file1 > result.txt
    {
        sub(/^[ ]/,"");
        sub(/[ ]$/,"");
        print $0
    }
    

    相关文章

      网友评论

          本文标题:使用awk去掉每一行两端的空格

          本文链接:https://www.haomeiwen.com/subject/suisjqtx.html