美文网首页
Shell_04_正则表达式RE

Shell_04_正则表达式RE

作者: 热爱_生活 | 来源:发表于2019-12-20 19:41 被阅读0次

    什么是正则表达式

    简单的说,正则表达式就是处理字串的方法,他是以行为单位来进行字串的处理行为, 正则表达式通过一些特殊符号的辅助,可以让使用者轻易的达到“搜寻/删除/取代”某特定字串的处理程序!

    正则表达式基本上是一种“表达式”, 只要工具程序支持这种表达式,那么该工具程序就可以用来作为正则表达式的字串处理之用。 例如 vi, grep, awk ,sed 等等工具,因为她们有支持正则表达式, 所以,这些工具就可以使用正则表达式的特殊字符来进行字串的处理。但例如 cp, ls 等指令并未支持正则表达式, 所以就只能使用 Bash 自己本身的通配符而已。

    是 Linux 基础当中的基础,如果学成了之后,一定是“大大的有帮助”的!这就好像是金庸小说里面的学武难关:任督二脉! 打通任督二脉之后,武功立刻成倍成长!

    关于语系

    在英文大小写的编码顺序中,zh_TW.big5 及 C 这两种语系的输出结果分别如下:

    LANG=C 时:0 1 2 3 4 ... A B C D ... Z a b c d ...z
    LANG=zh_TW 时:0 1 2 3 4 ... a A b B c C d D ... z Z
    
    
    image

    尤其要记住:

    [:alnum] 代表所有的大小写英文字符和数字 0-9 A—Z a-z
    [:alpha:] 代表任意英文大小写字符  A-Z a-z
    [:lower:] 代表小写字符       a-z
    [:upper:] 代表大写字符        A-Z
    [:digit:] 代表数字         0-9
    
    

    练习示例文件

    数据来源于鸟哥私房菜

    
    "Open Source" is a good mechanism to develop programs.
    apple is my favorite food.
    Football game is not use feet only.
    this dress doesn't fit me.
    However, this dress is about $ 3183 dollars.
    GNU is free air not free beer.
    Her hair is very beauty.
    I can't finish the test.
    Oh! The soup taste good.
    motorcycle is cheap than car.
    This window is clear.
    the symbol '*' is represented as start.
    Oh! My god!
    The gd software is a library for drafting programs.
    You are the best is mean you are the no. 1.
    The world <Happy> is the same with "glad".
    I like dog.
    google is the best tools for search keyword.
    goooooogle yes!
    go! go! Let's go.
    # I am VBird
    
    

    匹配示例

    image image
    image

    输出:

    image
    image

    输出:

    image
    image

    输出:

    image
    image

    输出:

    image

    匹配英文句点 ·

    image
    image

    输出:

    image
    image

    输出:

    image
    image

    输出:

    image
    image

    输出:

    image
    image

    输出:

    image

    匹配 2 个连续的 a 字符

    image

    匹配 2个以上连续的 a 字符

    image

    匹配 3 个以下连续的字符 a

    image

    进阶  grep

    -A   n  把匹配成功行之后的n行也同时列出。 A 就是 after 的首字母
            就是 之后 的意思
    
    -B   n  把匹配成功行之前的n行也同时列出。B 就是 before 的首字母
            就是 之前 的意思
    
    

    范例:

    显示 /etc/passwd 含有 mail 的行及其前2行和后 3 行

    [root@e9818e4ea8b3 ~]# grep mail -B 2 -A3 /etc/passwd
    shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
    halt:x:7:0:halt:/sbin:/sbin/halt
    mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
    operator:x:11:0:operator:/root:/sbin/nologin
    games:x:12:100:games:/usr/games:/sbin/nologin
    ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
    
    

    显示 目标行(这里是含有 mail 字符)的 各 3 行

    grep mail -C  3 /etc/passwd
    
    
    image

    只显示匹配到的字符

    grep -o 'nologin' /etc/passwd
    
    

    加上统计数量

    grep -o -c 'nologin' /etc/passwd
    
    

    只要文件名

    grep -l 'nologin' /etc/passwd
    
    

    递归查找,就是在一个目录下查找

    grep  -r  'nologin' /etc/
    
    

    搜索 testtast

    grep -n 't[ae]st'  regular_repress.txt
    
    

    搜索 oo 但其前面不要有g

    grep -n '[^g]oo'  regular_repress.txt
    
    

    注意:当搜索的行内含有符合搜索条件时后,此行就会忽略 明确不要的条件,比如以上的例子就可能会搜索到下面的内容

    3:tool is a good tool
    8:goooooogle 
    
    

    显示oo 前面非小写字符的行
    方法一:

    grep -n ‘[^a-z]oo’ regular_repress.txt
    
    

    方法二:

    grep -n  ‘[^[:lower:]]oo’ regular_repress.txt
    
    

    显示开头不是 英文字符的行

    grep -n  ‘^[^[:alpha]]’ regular_repress.txt
    
    

    符号 ^ 在 [] 内时是取反的意思,在 [] 之外是行首的意思
    显示行首不是#和;的行

    grep '^[^#;]' regular_repress.txt
    
    

    找到以 . 结尾的行

    grep -n  ‘\.$’ regular_repress.txt
    
    

    需要用 \ 进行转意

    查找 开头是 g 和结尾也是 g ,中间的字符可有可无

    grep -n   'g.*g' regular_repress.txt
    
    

    . 代表一个任意字符
    * 代表重复零到多个在 其前面的一个字符
    .* 代表零个或多个任意字符

    查找以a为开头的任意文件名
    方法一:

    通配符

    ls -l a*
    
    

    方法二:

    ls |grep -n ‘^a.*’
    
    

    列出 /etc 目录下的链接文件

    ls -l /etc |grep ‘^l’ 
    
    

    再统计一下多少个

    ls -l /etc |grep ‘^l’ |wc -l
    
    

    扩展正则

    image

    支持扩展正则的工具

    • grep -E

    • egrep

    • sed

    • awk

    ================================================
    <meta charset="utf-8">

    正则高级部分: 贪婪|非贪婪(扩展)

    贪婪 就是尽可能的多匹配

    非贪婪 就是尽可能的少匹配,只需要在一些表示量词(就是次数)的后面加上 ?, 比如: .*? +?

    grep 实现非贪婪

    grep 或者 egrep 默认都是贪婪模式,不支持非贪婪模式。
    要想实现非贪婪需要使用 -P 参数,这会使用 Perl 语言环境的正则

    image image image

    Perl 语言中:

    • \w 表示任意 一个 大小写字母 [a-zA-Z] 、下划线 _ 和数字 [0-9]
    • \d 表示任意 一个 数字 [0-9]
      当然这些规则适用于大部分的 编程语言,比如 python java javascript go php 等。
    image

    相关文章

      网友评论

          本文标题:Shell_04_正则表达式RE

          本文链接:https://www.haomeiwen.com/subject/zdninctx.html