美文网首页
sed、awk、perl混合实现同样的功能——文本转换和替代

sed、awk、perl混合实现同样的功能——文本转换和替代

作者: hygine | 来源:发表于2020-02-26 10:53 被阅读0次

    Unix 环境:转换DOS 的新行符(CR/LF)为Unix 格式。

    sed 's/.$//'  # 假设所有行以CR/LF 结束
    sed 's/^M$//'  # 在bash/tcsh 中,将按Ctrl-M 改为按Ctrl-V
    sed 's/\x0D$//'  # ssed、gsed 3.02.80,及更高版本
    awk '{sub(/\x0D$/,"");print $0}'
    perl -pe 's/\r$//'
    

    Unix 环境:转换Unix 的新行符(LF)为DOS 格式。

    sed "s/$/`echo -e \\\r`/"  # 在ksh 下所使用的命令
    sed 's/$'"/`echo \\\r`/"  # 在bash 下所使用的命令
    sed "s/$/`echo \\\r`/"  # 在zsh 下所使用的命令
    sed 's/$/\r/' # gsed 3.02.80 及更高版本
    awk '{printf("%s\r\n",$0)}'
    perl -pe 's/$/\r/'
    

    DOS 环境:转换Unix 新行符(LF)为DOS 格式。

    sed "s/$//" # 方法 1
    sed -n p # 方法 2
    

    DOS 环境的略过

    DOS 环境:转换DOS 新行符(CR/LF)为Unix 格式。

    下面的脚本只对UnxUtils sed 4.0.7 及更高版本有效。要识别UnxUtils 版本的

    sed 可以通过其特有的“–text”选项。你可以使用帮助选项(“–help”)看

    其中有无一个“–text”项以此来判断所使用的是否是UnxUtils 版本。其它DOS

    版本的的sed 则无法进行这一转换。但可以用“tr”来实现这一转换。

    sed "s/\r//" infile >outfile # UnxUtils sed v4.0.7 或更高版本
    tr -d \r <infile >outfile # GNU tr 1.22 或更高版本
    

    DOS 环境的略过

    将每一行前导的“空白字符”(空格,制表符)删除,使之左对齐

    sed 's/^[ \t]*//' # 见本文末尾关于'\t'用法的描述
    awk '{sub(/^[ \t]+/,"");print $0}'
    perl -ple 's/^\s+//'
    

    将每一行拖尾的“空白字符”(空格,制表符)删除

    sed 's/[ \t]*$//' # 见本文末尾关于'\t'用法的描述
    awk '{sub(/[ \t]+$/,"");print $0}'
    perl -ple 's/\s+$//'
    

    将每一行中的前导和拖尾的空白字符删除

    sed 's/^[ \t]*//;s/[ \t]*$//'
    awk '{sub(/^[ \t]+/,"");sub(/[ \t]+$/,"");print $0}'
    perl -ple 's/\s+(.*)\s+$/\1/'
    

    在每一行开头处插入5 个空格(使全文向右移动5 个字符的位置)

    sed 's/^/ /'
    awk '{printf(" %s\n",$0)}'
    perl -pe 'print " "x5'
    

    以79 个字符为宽度,将所有文本右对齐

    78 个字符外加最后的一个空格

    sed -e :a -e 's/^.\{1,78\}$/ &/;ta'
    awk '{printf("%79s\n",$0)}'
    perl -ne 'printf "%80s", $_'
    

    以79 个字符为宽度,使所有文本居中。在方法1 中,为了让文本居中每一行的前头和后头都填充了空格。 在方法2 中,在居中文本的过程中只在文本的前面填充空格,并且最终这些空格将有一半会被删除。此外每一行的后头并未填充空格。

    sed -e :a -e 's/^.\{1,77\}$/ & /;ta'  # 方法1
    sed -e :a -e 's/^.\{1,77\}$/ &/;ta' -e 's/\( *\)\1/\1/'  # 方法2
    awk '{for(i=0;i<39-length($0)/2;i++)printf(" ");printf("%s\n",$0)}'  #相当于上面的方法二
    perl -pe 'print " " x (40-(length)/2)'  # 方法2
    

    在每一行中查找字串“foo”,并将找到的“foo”替换为“bar”

    sed 's/foo/bar/'    # 只替换每一行中的第一个“foo”字串
    sed 's/foo/bar/4'    # 只替换每一行中的第四个“foo”字串
    sed 's/foo/bar/g'    # 将每一行中的所有“foo”都换成“bar”
    sed 's/\(.*\)foo\(.*foo\)/\1bar\2/'   # 替换倒数第二个“foo”
    sed 's/\(.*\)foo/\1bar/'    # 替换最后一个“foo”
    awk '{gsub(/foo/,"bar");print $0}'    # 将每一行中的所有“foo”都换成“bar”
    perl -pe 's/foo/bar/'    # 只替换每一行中的第一个“foo”字串
    perl -pe 's/foo/bar/g'    # 将每一行中的所有“foo”都换成“bar”
    perl -pe 's/(.*)foo(.*foo)/\1bar\2/'    # 替换倒数第二个“foo”
    perl -pe 's/(.*)foo/\1bar/'    # 替换最后一个“foo”
    

    只在行中出现字串“baz”的情况下将“foo”替换成“bar”

    sed '/baz/s/foo/bar/g'
    awk '{if(/baz/)gsub(/foo/,"bar");print $0}'
    perl -pe 's/foo/bar/g if /baz/'
    

    将“foo”替换成“bar”,并且只在行中未出现字串“baz”的情况下替换

    sed '/baz/!s/foo/bar/g'
    awk '{if(/baz$/)gsub(/foo/,"bar");print $0}'
    perl -pe 's/foo/bar/g unless /baz/'
    

    不管是“scarlet”“ruby”还是“puce”,一律换成“red”

    sed 's/scarlet/red/g;s/ruby/red/g;s/puce/red/g' #对多数的sed 都有效
    gsed 's/scarlet\|ruby\|puce/red/g' # 只对GNU sed 有效
    awk '{gsub(/scarlet|ruby|puce/,"red");print $0}'
    perl -pe 's/scarlet|ruby|puce/red/g'
    

    倒置所有行,第一行成为最后一行,依次类推(模拟“tac”)。

    由于某些原因,使用下面命令时HHsed v1.5 会将文件中的空行删除

    sed '1!G;h;$!d' # 方法1
    sed -n '1!G;h;$p' # 方法2
    awk '{A[i++]=$0}END{for(j=i-1;j>=0;j--)print A[j]}'
    perl -e 'print reverse <>'
    

    将行中的字符逆序排列,第一个字成为最后一字,……(模拟“rev”)

    sed '/\n/!G;s/\(.\)\(.*\n\)/&\2\1/;//D;s/.//'
    awk '{for(i=length($0);i>0;i--)printf("%s",substr($0,i,1));printf("\n")}'
    perl -ple '$_=scalar reverse'
    

    将每两行连接成一行(类似“paste”)

    sed '$!N;s/\n/ /'
    awk '{f=!f;if(f)printf("%s",$0);else printf(" %s\n",$0)}'
    perl -pe 's/\n/ / if $.%2'
    

    如果当前行以反斜杠“\”结束,则将下一行并到当前行末尾,并去掉原来行尾的反斜杠

    sed -e :a -e '/\\$/N; s/\\\n//; ta'
    awk '{if(/\\$/)printf("%s",substr($0,0,length($0)-1));else printf("%s\n",$0)}'
    perl -pe 's/\\\n//'
    

    如果当前行以等号开头,将当前行并到上一行末尾,并以单个空格代替原来行头的“=”

    sed -e :a -e '$!N;s/\n=/ /;ta' -e 'P;D'
    awk '{if(/^=/)printf(" %s",substr($0,2));else printf("%s%s",a,$0);a="\n"}END{printf("\n")}'
    perl -0777pe 's/\n=/ /'
    

    为数字字串增加逗号分隔符号,将“1234567”改为“1,234,567”

    gsed ':a;s/\B[0-9]\{3\}\>/,&/;ta' # GNU sed
    sed -e :a -e 's/\(.*[0-9]\)\([0-9]\{3\}\)/\1,\2/;ta' # 其他sed
    

    awk 的正则没有后向匹配和引用,搞的比较狼狈,呵呵。

    awk  '{while(match($0,/[0-9][0-9][0-9][0-9]+/)){$0=sprintf("%s,%s",substr($0,0,RSTART+RLENGTH-4),substr($0,RSTART+RLENGTH-3))}print $0}'
    perl -pe 's/(\d)(?=(\d{3})+\b)/\1,/g'
    

    为带有小数点和负号的数值增加逗号分隔符(GNU sed)

    gsed -r ':a;s/(^|[^0-9.])([0-9]+)([0-9]{3})/\1\2,\3/g;ta' #和上例差不多
    awk  '{while(match($0,/[^\.0-9][0-9][0-9][0-9][0-9]+/)){$0=sprintf("%s,%s",substr($0,0,RSTART+RLENGTH-
    4),substr($0,RSTART+RLENGTH-3))}print $0}'  # 这是我写的最复杂的正则表达式
    perl -pe 's/(\d)((?=(\d{3}){2,}\.\d)|(\d{3}\.\d+)|(?=(\d{3})+\D))/\1,\2/g'
    

    在每5 行后增加一空白行 (在第5,10,15,20,等行后增加一空白行)

    gsed '0~5G' # 只对GNU sed 有效
    sed 'n;n;n;n;G;' # 其他sed
    awk '{print $0;i++;if(i==5){printf("\n");i=0}}'
    perl -pe '$_.="\n" if $.%5==0'
    

    相关文章

      网友评论

          本文标题:sed、awk、perl混合实现同样的功能——文本转换和替代

          本文链接:https://www.haomeiwen.com/subject/nlxmchtx.html