美文网首页Linux运维进阶-Python,Docker,Shell
值得读的linux的正则表达式总结---1

值得读的linux的正则表达式总结---1

作者: My熊猫眼 | 来源:发表于2020-06-05 10:33 被阅读0次

在linux 的使用中,相同的正则表达式在不同的命令中所实现的匹配结果并完全相同,这就免不了导致我们在使用时候的疑惑。要解决这个疑惑,我们需要了解一些背景:

POSIX 是一个标准,其中定义了一些正则表达式的规范,而Linux基本上实现了POSIX的规范,但并没有参加正式的POSIX认证(这个说法查自百度的百科词条POSIX)。 而POSIX 定义了两种正则表达式语法,一种是BRE(Basic Regex Expression),另一种是ERE(Extended Regex Expression).

关于基本正则表达式(BRE),其支持的基本用法有:

^    表示匹配行首
$    表示匹配行尾
.    表示匹配任意单个字符,但是不含换行符‘\n’

[]   匹配区间的任意字符,区间中可以是一个到多个字符,因为 并不是单一符号表示,所以需要用双引号 引用起来.
[^]  区间任意字符都不匹配,因为不是单一符号表示,所以要用 双引号 引用起来. 同样,区间中可以是一个到多个字符.
-    递增的连续区间,从来不能单独使用,常用在 [] 的内部,比如 "[a-z]" 表示a到z中的任意字符."[^a-z]" 表示a-z都不能匹配,也就是a-z之外的字符匹配.

*    属于二级正则表达式,因为其表示前面匹配出现的此处,此处表示匹配0次到多次.

\    这个表示转义字符. 比如:echo "abcde\f" | grep  -o '\\'  的结果为: \

ERE作为扩展正则表达式,其除了支持BRE,还支持如下的基本用法:

扩展的regular expression, 主要是实现二级正则表达式,也就是对匹配次数进行限制.
+  限制匹配的次数为1到多次.
?  限制匹配的次数为1次或者0次.
()  单一字符,可以直接跟限制次数的表达式,但是对于字符串,就需要用()引用起来,然后才能跟限制次数的表达式.
{n}   匹配前面的表达式n次
{n,}  匹配前面的表达式n次或者更多次.
{n,m} 匹配前面的表达式n次到m次.
|   相当于逻辑或,a|b  表示匹配a或者b.

关于上述扩展以及基本正则表达式,参考https://man.linuxde.net/docs/shell_regex.html

知道了上述的基本和扩展正则表达式,当使用linux命令的时候,要查看帮助都支持什么正则表达式,比如: grep命令,其帮助文档中有如下一段:

       -G, --basic-regexp
              Interpret PATTERN  as  a  basic  regular  expression  (BRE,  see
              below).  This is the default.

也就是说,默认情况下,grep 支持基本BRE正则表达式.

实际上,并不是所有的命令都完全兼容的支持 BRE与ERE, 对于不同的命令,可能都有特殊的情况,比如:grep 就无法把 \t 识别为tab键对应的值。对于grep的这个情况,有如下的多种解决方法:
a.
指定grep 使用perl的正则表达式,参数为: -P, perl 正则是支持 "\t" 表示tab.
b.
使用 "^V<tab>" 来实现向grep 传递tab键的值, 其中引号里面的内容并不是看到的输入字符,而是以下操作的结果: 按下ctrl+v, 然后按下tab建。
这种方式有一个明显的缺点: 如果需要在shell脚本中实现grep 的话,显然该方法并不具有很好的通用性.
c.
3.1.2.4 ANSI-C Quoting,通过这里描述的ANSI-C的Quoting的特性,我们可以用 $'\t' 来表示 tab 键的值. 个人的理解是: shell 对这个 $'\t' 进行了interpreted, 然后把结果传递给了grep 做进一步的处理,但是如果用在grep中的正则表达式比较复杂,而tab仅仅是其中一个字符,那么用起来比较麻烦,另外,并且不是所有的shell都支持对$'\t'的 interpreted. 所以通用性也不是很好.
d.
用printf 命令来输出 tab 对应的键值,然后传递给grep 进行处理。具体的用法是 :printf '\t' ,这个命令的结果就是 tab键的值,可以传递给grep 使用。比如用: grep "$(printf '\t')" foo.txt 命令。 如果是复杂的正则表达式,那么依然具有很好的兼容性。个人比较推荐.

在linux 的shell中,对变量的访问是用 $加上变量名称来实现的,如果变量的值是多行的内容(比如是一个文件的内容),那么这时候对变量的访问就有两种方式, 访问变量时候是否用引号,对应的结果是不一样的,如果使用了引号,那么是按行进行处理的,如果没有用引号,那么是作为一个整体处理的。

[root@test~]# str=`head /etc/os-release`
[root@test ~]# echo $str
NAME="Red Hat Enterprise Linux Workstation" VERSION="7.6 (Maipo)" ID="rhel" ID_LIKE="fedora" VARIANT="Workstation" VARIANT_ID="workstation" VERSION_ID="7.6" PRETTY_NAME="Red Hat Enterprise Linux Workstation 7.6 (Maipo)" ANSI_COLOR="0;31" CPE_NAME="cpe:/o:redhat:enterprise_linux:7.6:GA:workstation"
[root@test ~]# echo "$str"
NAME="Red Hat Enterprise Linux Workstation"
VERSION="7.6 (Maipo)"
ID="rhel"
ID_LIKE="fedora"
VARIANT="Workstation"
VARIANT_ID="workstation"
VERSION_ID="7.6"
PRETTY_NAME="Red Hat Enterprise Linux Workstation 7.6 (Maipo)"
ANSI_COLOR="0;31"
CPE_NAME="cpe:/o:redhat:enterprise_linux:7.6:GA:workstation"
[root@test ~]# 

本文原创,转载请著名出处

相关文章

网友评论

    本文标题:值得读的linux的正则表达式总结---1

    本文链接:https://www.haomeiwen.com/subject/pffnzhtx.html