Linux“文本三剑客”之grep

作者: 学渣角鹿白 | 来源:发表于2018-05-14 13:37 被阅读12次

grep及正则表达式
Linux 文本处理三剑客：grep、sed 和 awk
Grep
grep 及正则表达式
Linux运维之道(9)——Linux三剑客之grep命令及其正
Linux上文本处理三剑客grep及正则表达式
awk
linux020 文本处理命令 grep，sed，awk
note_6.3_grep命令与基本正则表达式
Linux系统中awk和sed有什么区别?

grep，Global search REgular expression and Print out the line. 是Linux中常用的文本搜索工具，基于正则表达式（Regular Expression）和文本字符来编写模式（Pattern），然后根据指定的模式对目标文本逐行进行匹配，打印匹配到的行。

grep工具分类

grep命令

正则表达式
(1) 基本正则表达式的元字符
(2) 扩展正则表达式的元字符

grep工具的应用实例

1. grep工具分类

grep工具共有三个：

grep - 默认支持基本正则表达式BRE；

egrep - 默认支持扩展正则表达式ERE；

fgrep - 默认不支持正则表达式。

虽然工具由三种，但三者都可以通过选项来达到彼此的使用效果：

grep
(1) grep -E：相当于egrep
(2) grep -F：相当于fgrep

egrep
(1) egrep -G：相当于grep
(2) egrep -F：相当于fgrep

fgrep
(1) fgrep -G：相当于grep
(2) fgrep -E：相当于egrep

所以一般只使用grep配合选项来达到不同的效果即可。
另外，如果需要进行文本搜索的是很大的文件，尽量使用fgrep或-F选项来直接匹配文本，不通过正则表达式处理，性能会有较大提高，f就是fast之意。

2. grep命令

grep [OPTIONS] PATTERN [FILE...]
grep [OPRIONS] [-e PATTERN | -f FILE] [FILE...]
OPTIONS
--color=auto：高亮显示匹配到的文本
-i：--ignore-case：忽略字符大小写
-o：仅显示匹配到的字符串本身，而非整行（默认显示被模式匹配到的行）
-v：--invert-match：反向匹配，仅显示不能被模式匹配到的行
-E：支持使用扩展的正则表达式
-q：--quiet，--silent：静默模式，即不输出任何信息

grep还可以显示匹配到的行的上下文：
-A #：after：后#行
-B #：before：前#行
-C #：context：前后各#行

要用好grep等具有正则表达式引擎的工具，熟练应用正则表达式才是根本。

3. 正则表达式

正则表达式：Regular Expression，REGEXP。

正则表达式是由一类特殊字符及本本字符本身所编写的模式，其中有些字符不表示其字面意义，而是用于表示控制或通配的功能。

正则表达式分为两类：

基本正则表达式：BRE
扩展正则表达式：ERE

(1) 基本正则表达式的元字符

字符匹配
.：匹配任意单个字符
[]：匹配指定范围内的任意单个字符
[^]：匹配指定范围外的任意单个字符

字符集：
[:digit:]，[:lower:]，[:upper:]，[:alpha:]，[:alnum:]，[:punct:]，[:space:]，等等

次数匹配
用在要指定其出现次数的字符的后面，用于限制其前面字符出现的次数。。
*：匹配其前面的字符任意次
比如：.*：匹配任意长度的任意字符
?：匹配其前面的字符0次或1次，即其前面的字符是可有可无的
+：匹配其前面的字符1次或多次，即其前面的要出现至少1次
{m}：匹配其前面的字符m次
{m,n}：匹配其前面的字符至少m到n次
位置锚定
^：行首锚定：用于模式的最左侧
$：行尾锚定：用于模式的最右侧
如： ^PATTERN$：用PATTERN来匹配整行
^$：匹配空白行，这行不包含任意字符（连空格也没有）
^[[:space:]]*$：空行或包含space的行
< 或 \b：词首锚定：用于单词模式的左侧
> 或 \b：词尾锚定：用于单词模式的右侧
如：\<PATTERN\>用于匹配完整单词

这里强调一下LInux中单词的含义：非特殊字符组成的连续字符（字符串）都称为单词。
即：如果有特殊字符或空格出现，则单词中断。

分组及引用
：将一个或多个字符捆绑在一起，当做一个整体进行处理
如$xy$*z：表示匹配“xy”任意次

\#：后向引用，#表示序号，引用前面的分组括号中的模式所匹配到的字符

分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部的变量中，这些变量为：
\1：模式从左侧起，第一个左括号以及与之匹配的右括号之间的模式所匹配的字符
\2：模式从左侧起，第二个左括号以及与之匹配的右括号之间的模式所匹配的字符
\3
...

(2) 扩展正则表达式的元字符

字符匹配

扩展正则表达式的字符匹配元字符和基本正则表达式相同。

次数匹配
扩展正则表达式的次数匹配元字符省去了反斜线\，更易读：
*：任意次（即0，1，或多次）
?：0次或1次，其前的字符是可有可无的
+：其前字符至少1次
{m}：其前的字符m次
{m,n}：至少m次，至多n次
位置锚定

扩展正则表达式的位置锚定元字符和基本正则表达式相同。

分组及引用
扩展正则表达式的分组元字符省去了反斜线\，更易读：
()：分组

后向引用元字符和基本正则表达式相同

“或”关系
扩展正则表达式比基本正则表达式多了一个“或”的元字符：
|：“或”
如：a|b：a或者b
C|cat：C或cat
(c|C)at：cat或Cat

4. grep工具的应用实例

显示/proc/meminfo文件中以大写或小写S开头的行；用两种方式
第一种方式，直接使用grep工具：
[root@localhost ~]# grep '^[s,S]' /proc/meminfo
SwapCached: 0 kB
SwapTotal: 975868 kB
SwapFree: 975868 kB
Shmem: 4684 kB
Slab: 55728 kB
SReclaimable: 20580 kB
SUnreclaim: 35148 kB
第二种方式，先用cat，然后通过管道将命令结果交给grep处理：
[root@localhost ~]# cat /proc/meminfo | grep '^[s,S]'
SwapCached: 0 kB
SwapTotal: 975868 kB
SwapFree: 975868 kB
Shmem: 4684 kB
Slab: 55880 kB
SReclaimable: 20588 kB
SUnreclaim: 35292 kB
显示/etc/passwd文件中其默认shell为非/sbin/nologin的用户
[root@localhost ~]# grep -v '/sbin/nologin$' /etc/passwd
root:x:0:0:root:/root:/bin/bash
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
amandabackup:x:33:6:Amanda user:/var/lib/amanda:/bin/bash
tomcat:x:91:91:Apache Tomcat:/usr/share/tomcat:/bin/nologin
hadoop:x:1500:1500::/home/hadoop:/bin/bash

8、显示/etc/passwd文件中其默认shell为/bin/bash的用户；
[root@localhost ~]# grep '/bin/bash$' /etc/passwd
root:x:0:0:root:/root:/bin/bash
amandabackup:x:33:6:Amanda user:/var/lib/amanda:/bin/bash
hadoop:x:1500:1500::/home/hadoop:/bin/bash

9、找出/etc/passwd文件中的一位数或两位数；
[root@localhost ~]# grep -o "\<[[:digit:]]\{1,2\}\>" /etc/passwd
0
0
1
1
2
2
...

10、显示/boot/grub2/grub.conf中以至少一个空白字符开头的行
[root@localhost ~]# grep '^[[:space:]]\+' /boot/grub2/grub.cfg

11、显示/etc/rc.d/rc.local文件中以#开头，后面跟至少一个空白字符，而后又有至少一个非空白字符的行
[root@localhost ~]# grep '^#[[:space:]]\+[^[:space:]]' /etc/rc.d/rc.local
# THIS FILE IS ADDED FOR COMPATIBILITY PURPOSES
# It is highly advisable to create own systemd services or udev rules
# to run scripts during boot instead of using this file.

12、打出netstat -tan命令执行结果中以‘LISTEN’，后跟空白字符结尾的行
[root@localhost ~]# netstat -tan | grep 'LISTEN[[:space:]]\+$'
tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN
tcp 0 0 127.0.0.1:25 0.0.0.0:* LISTEN
tcp6 0 0 :::22 :::* LISTEN
tcp6 0 0 ::1:25 :::* LISTEN
13、添加用户bash, testbash, basher, nologin (此一个用户的shell为/sbin/nologin)，而后找出当前系统上其用户名和默认shell相同的用户的信息；
[root@localhost ~]# grep -E "(\<[[:alnum:]]+\>).*\1$" /etc/passwd
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
bash:x:1501:1501::/home/bash:/bin/bash
nologin:x:1504:1504::/home/nologin:/sbin/nologin

grep及正则表达式
grep Linux上文本出来三剑客grep:文本过滤（模式：pattern）工具；grep ,egrep ,fg...
Linux 文本处理三剑客：grep、sed 和 awk
[TOC] awk、grep、sed是linux操作文本的三大利器，合称文本三剑客，也是必须掌握的linux命令之...
Grep
Linux文本处理三剑客 grep：文本过滤(模式：pattern)工具grep, egrep, fgrep（不支...
grep 及正则表达式
Linux 上文本处理三剑客 grep：文本过滤（模式：pattern）工具grep（基本匹配），egrep（扩展...
Linux运维之道(9)——Linux三剑客之grep命令及其正
@(Linux)[Linux三剑客之grep及其正则表达式] HowTo: Use grep Command In...
Linux上文本处理三剑客grep及正则表达式
Linux上文本处理三剑客： grep, egrep, fgrep：文本过滤工具，通过（模式：pattern）过滤...
awk
awk的简介和功能 awk： Linux 文本处理三剑客：grep、sed和awk。其中grep是一种文本过滤工具...
linux020 文本处理命令 grep，sed，awk
grep 、sed、awk被称为linux中的"三剑客"。 grep 适合单纯的查找或匹配文本 sed 适合编辑...
note_6.3_grep命令与基本正则表达式
文本处理工具 Linux上文本处理三剑客： grep,egrep, fgrep:文本过滤工具（模式：patter...
Linux系统中awk和sed有什么区别?
Linux文本三剑客，即awk、grep、sed，这三个命令是Linux中常用的文本处理命令，主要作用是对文本内容...