美文网首页
SHELL脚本编程以及日常使用技巧

SHELL脚本编程以及日常使用技巧

作者: clstou | 来源:发表于2020-08-14 18:09 被阅读0次

基础

从一个命令行开始

grep --context=2 -niE 'printf|log' -- *.{h,cpp} > /tmp/result 2>/dev/null

该命令行使用grep命令在当前目录下的后缀为.h以及.cpp的文件中,查找包含printf或者log的行, 并将结果保存到文件/tmp/result。包括了命令行的几个典型元素。这里从左到右依次说明:

  • grep(1)为需要执行的命令
  • --context=2这是一个长选项,并带有一个参数2
  • -niE 这是三个连写的短选项。
  • 'printf|log'这个是-E选项的参数,使用单引号包含。
  • --这两个破折号用于表示选项结束。在--后面的内容将作为参数(例如: grep -- '-i' foo.h)。
  • *.{h,cpp} 这是一个文件匹配模式,在经过shell扩展后,作为grep命令的参数。
  • > /tmp/result 其中>为文件重定向标志,默认重定向标准输出(0标准输入,1标准输出,2标准错误),所以这里与1> /tmp/result的含意相同: 将标准输出重定向到文件/tmp/result
  • 2>/dev/null 这里将标准错误重定向到/dev/null,这个是一个特殊的系统文件,任何输出到这个文件的内容将会被丢弃。所以,这里的意思是丢弃错误信息。另外,从/dev/null读入,将会马上返回一个EOF(end of file)

上面的命令行中,需要说明的几点是:

  • 命令行的一般格式为cmd [options] [args]
  • -开头的内容称为(短)选项(option),相应的,--开头的内容称为长选项。长短选项的意义是一样的,只是长选项的可读性更好,方便理解使用。
  • 选项可以带一个或零个参数。
  • 不带参数的选项可以连着写,例如上面的-niE
  • 选项之后的内容称为参数(agument), 例如上面的*.{h,cpp}
  • 文件匹配模式与正则表达式是不同的。
  • 命令的输出中,需要将正常输出的内容和错误信息输出分开。
  • 单引号引用为强引用,引号内的内容不进行扩展;双引号内的内容用允许部分扩展(变量名扩展以及命令扩展)。

SHELL命令解析流程

st=>start: 将命令分隔成tokens
cond1=>condition: 检查第一个token是否为关键字
cond2=>condition: 检查第一个token
operr=>operation: 语法错误
op1=>operation: 波浪号展开
op2=>operation: 变量替换
op3=>operation: 命令替换
op4=>operation: 算数表达式替换
op5=>operation: 展开的文本进行单词分隔
op6=>operation: 通配符展开
op7=>operation: 命令查找:特殊内建命令、函数、内建命令、可执行文件
op8=>operation: 完成IO重定向以及其他同类型事项后
cond3=>condition: 执行命令
e=>end

st->cond1
cond1(yes)->cond2
cond1(no)->operr
cond2(yes)->op1
op1->op2->op3->op4
op4->op5->op6->op7
op7->op8->cond3
cond3(yes, left)->st

注: 执行命令这里,如果执行的命令是eval的话,会重新从开始走一遍扫描流程。因为Markdown流程图这里不好画,所以就暂时留空了。具体可以参考Shell脚本学习指南关于命令解析部分。
这里引用一张网上的图:
[站外图片上传中...(image-31c13e-1597399378750)]

常见的命令

文本处理

大部分Linux命令,特别是文本处理命令都是从标准输入读入数据,并输出到标准输出。下面是一些常用且应该熟练掌握的命令。

  • grep
  • sed
  • awk
  • sort
  • diff
  • vi

其他常用命令

  • crontab
  • curl 支持ftp,http等多种协议处理
  • find
  • ftp
  • file 查看文件类型
  • free
  • lsof 查看打开的文件(文件被哪个进程打开;进程打开了哪些文件)
  • jq 处理json
  • pgrep
  • ps
  • top
  • tar
  • tcpdump
  • rsync 文件拷贝同步,支持远程拷贝,使用差量快速同步
  • df
  • du
  • bc 强大的可编程计算器
  • md5sum
  • hexdump
  • usradd
  • usrmod
  • chown
  • chmod

学会看手册

命令有很多,而且选项也很多,单靠记忆是很难全部记住的。所以要学会RTFM。下面是看手册也的一些基本要点:

  • man man开始。
  • 手册页分了7个section。每个section包含了不同范畴的手册页。例如,secction 1是shell命令的手册页,section 3是库函数的手册页。平常我们看到的手册页中标明的下标索引,其实就是手册页的section。例如ls(1)以及printf(3),其中的(1)(3)指引用户使用命令man 1 ls, man 3 printf去查看section 1section 3的手册页:
       The standard sections of the manual include:

       1      User Commands

       2      System Calls

       3      C Library Functions

       4      Devices and Special Files

       5      File Formats and Conventions

       6      Games et. Al.

       7      Miscellanea

       8      System Administration tools and Daemons

  • 手册页通常包含了标题,名称,概要,描述,选项,环境变量,返回值,SEE ALSO等。这里简单介绍一下概要部分:

pgrep [-flvx] [-d delimiter] [-n|-o] [-P ppid,...] [-g pgrp,...]
[-s sid,...] [-u euid,...] [-U uid,...] [-G gid,...]
[-t term,...] pattern

其中`[]`包含的内容均为可选内容,不在`[]`内的内容则为必选内容。可有可无;`|`则表示或;`...`则表示多个。斜体字必须用适当的值替换, 例如上面的*pattern*。

脚本初步

原则

  • 一次做好一件事
  • 处理文本,不要处理二进制数据
    文本易懂,而且可用的工具更多。
  • 使用正则表达式
    使用正则,功能会更强大。
  • 默认使用标准输入/输出
    为了和其他工具在管道中使用
  • 避免喋喋不休
    仅输出必要的信息。unix工具程序遵循你叫它做什么,它就做什么的设计哲学。它们不会问“Are you sure?”
  • 输出格式必须与可接受的输入格式一致
    保持输入格式一致,以便其他工具可以继续处理
  • 让工具去做困难的部分
    尽量使用已有成熟的工具
  • 构建特定工具前,先想一想
    是否有必要,其他人是否也要做,是否这个特殊的要求是一个一般的要求的特例?

编码规范

可以参考google shell脚本编程规范
这里特别提两点,变量名使用小写加小划线,环境变量以及全局变量放开头,并用大写加下划线;
shell脚本不需要用.sh作为结尾,除非是作为库函数使用,而且作为库函数使用时,不需要有执行权限。之所以不需要以.sh结尾的原因在于,文件后缀对于Linux下的可执行文件没有特殊意义,另外,脚本有可能使用其他语言重写,调用方只需要知道脚本的功能,没有必要知道脚本的编写语言。

脚本的执行

Linux在执行命令的时候,首先会判断命令是否是一个可执行的二进制文件,如果是,则直接执行。如果不是且文件以#!开头,则把该命令作为一个脚本执行(解释器文件)。并以#!后面指定的命令作为解释器。流程如下:

st=>start: 执行命令foo arg1
cond=>condition: 是否为可执行二进制
op1=>operation: 执行二进制命令(foo arg1)
cond2=>condition: 是否为解释器文件
op2=>operation: 执行解释器文件(/path/to/cmd -pf /path/to/foo arg1)
op3=>operation: 报错
e=>end: 结束

st->cond
cond(yes)->op1
op1->e
cond(no, right)->cond2
cond2(yes)->op2->e
cond2(no, right)->op3->e

这里假设脚本文件路径为/path/to/foo,脚本内容为:

#!/path/to/cmd -pf
script content comes here...

变量

bash支持定义readonly变量,整型变量等。

条件判断

bash支持if条件判断(条件测试包括文件是否存在,命令是否执行成功等, 具体可以参考test(1))以及switch case条件判断。(help case)

循环

bash支持for以及while循环语句。具体可以参考help for以及help while

主要shell编程参考

以上只是简单介绍,shell脚本编程完整的信息可以参考bash(1)手册页以及 Shell脚本学习指南

日常使用

下面是我个人针对平常日常操作做的一些总结,比较主观,大家可以参考一下。以下说明如无特殊说明,均针对bash

一些不好的习惯

  • 可执行脚本以.sh后缀结尾
  • 脚本第一行不是#!/bin/bash
  • 喜欢使用root用户或其他具有超级用户权限的用户操作
    这样做的坏处首先是不安全,跳过了系统按用户以及权限划分的边界,很容易误操作。打乱了系统的管理。同时,使用超级用户进行日常操作,就像一个野蛮人一样,侵犯了正常操作的普通用户以及造成不便。在公共服务器上,使用超级用户权限时,需要尊重其他人。
  • 给文件或目录加上777权限
    没有必要,而且不符合最小权限的原则。
  • 习惯一问一答的操作,例如rm -i以及mv -i等
    这样一问一答的操作浪费时间,特别是这种日常操作更是如此。另外,这里有一个陷阱,以rm -i为例子,确认式删除好像看起来操作更加谨慎,但实际上可能在习惯了这种操作之后,还是会顺手输入确认,导致误删。从这个角度而言,直接删除和交互式删除是一样。但是交互式删除浪费了更多的时间,而且,另一方面,时刻提醒自己,一旦执行rm就会删除,会让你在删除时更加谨慎,并养成习惯。真正谨慎的操作是养成谨慎的习惯。
  • 脚本不检查输入
    严格检查外部输入,内部错误则要快速出错。
  • 文件或目录名称滥用大写字母
    一般使用大写字母的作用是为了强调,但是如果滥用大写字母,就起不到强调的作用了!就像到处使用叹号一样!!而且输入的时候,要多按一个shift键!!!

一些好的习惯

  • 保证脚本在任何工作目录都可以正常执行,关键是在脚本里使用绝对路径。
  • 合理使用引号。例如,greppattern参数最好用单引号包起来。
  • 谨慎处理批量操作,尽量精确匹配。特别是删除文件等。
  • 文件或目录名不要包含对shell有特殊含义的特殊字符,例如(),>,|等。
  • 从标准输入读入数据,输出到标准输出,同时错误信息输出到标准错误

一些容易混淆的概念

正则与文件匹配模式

正则与平常在shell命令行中使用的文件匹配模式是两种不同的东西。正则表达式有多种实现,日常日用最多的是BRE(basic RE)ERE(extend RE),除此之外还有功能强大的PRE(Perl RE)。文本处理命令一般都使用正则。而文件匹配模式一般仅在在shell命令行解析中使用。(case中使用的也是文件匹配模式)。具体可以参考手册页man 7 glob。这里举一个例子:

grep -E 'log_(debug|info)\(' *.{h,cpp}
grep '[a-z]*' [e-f]*.h

log_(debug|info)\(使用的ERE的语法,支持成组以及或等高级功能,这里匹配log_debug(或者log_info([a-z]*使用的是BRE,支持一般的正则匹配, 这里匹配任意个小写字母(注意,0个也是任意个)。*.{h,cpp}以及[e-f]*.h则为文件匹配模式,分别匹配当前目录下以.h.cpp结尾的文件,以及ef开头并加上任意字符以及以.h结尾的文件。

环境变量

设置环境变量仅对当前进程以及它的子进程有效。

一些常用的技巧

以下罗列的一些技巧在参考的书籍中基本都有提及。如果本身对shell编程了解不多并且有时间的话,系统的查阅书籍。这样可以花比较少的时间,系统以及全面掌握。

Bash快捷键

在输入命令行的时候,bash支持vi以及emacs两个模式。一般emacs模式更方便。这里罗列一下常用的快捷键, 完整版快捷键说明可以参考readline-emacs-editing-mode-cheat-sheet.pdf或者使用bash内置命令bind -p查看:

======================== Keyboard Shortcut Summary ========================

.--------------.-------------------.----------------------------------------.
|              |                   |                                        |
| Shortcut     | Function          | Description                            |
|              |                   |                                        |
'--------------'-------------------'----------------------------------------'
| Commands for Moving:                                                      |
'--------------.-------------------.----------------------------------------'
| C-a          | beginning-of-line | Move to the beginning of line.         |
'--------------+-------------------+----------------------------------------'
| C-e          | end-of-line       | Move to the end of line.               |
'--------------+-------------------+----------------------------------------'
| C-f          | forward-char      | Move forward a character.              |
'--------------+-------------------+----------------------------------------'
| C-b          | backward-char     | Move back a character.                 |
'--------------+-------------------+----------------------------------------'
| M-f          | forward-word      | Move forward a word.                   |
'--------------+-------------------+----------------------------------------'
| M-b          | backward-word     | Move backward a word.                  |
'--------------+-------------------+----------------------------------------'
| C-l          | clear-screen      | Clear the screen leaving the current   |
|              |                   | line at the top of the screen.         |
'--------------'-------------------'----------------------------------------'
| Commands for Changing Text:                                               |
'--------------.-------------------.----------------------------------------'
| Rubout       | backward-delete-  | Delete one character backward.         |
|              | char              |                                        |
'--------------+-------------------+----------------------------------------'
| C-q or C-v   | quoted-insert     | Quoted insert.                         |
'--------------+-------------------+----------------------------------------'
| M-TAB or     | tab-insert        | Insert a tab character.                |
| M-C-i        |                   |                                        |
'--------------+-------------------+----------------------------------------'
| a, b, A, 1,  | self-insert       | Insert the character typed.            |
| ...          |                   |                                        |
'--------------+-------------------+----------------------------------------'
| C-t          | transpose-chars   | Exchange the char before cursor with   |
|              |                   | the character at cursor.               |
'--------------+-------------------+----------------------------------------'
| M-t          | transpose-words   | Exchange the word before cursor with   |
|              |                   | the word at cursor.                    |
'--------------+-------------------+----------------------------------------'
| M-u          | upcase-word       | Uppercase the current word.            |
'--------------+-------------------+----------------------------------------'
| M-l          | downcase-word     | Lowercase the current word.            |
'--------------+-------------------+----------------------------------------'
| M-c          | capitalize-word   | Capitalize the current word.           |
'--------------+-------------------+----------------------------------------'
| (unbound)    | overwrite-mode    | Toggle overwrite mode.                 |
'--------------'-------------------'----------------------------------------'
| Killing and Yanking:                                                      |
'--------------.-------------------.----------------------------------------'
| C-k          | kill-line         | Kill the text from point to the end of |
|              |                   | the line.                              |
'--------------+-------------------+----------------------------------------'
| C-u          | unix-line-discard | Kill backward from point to the        |
|              |                   | beginning of the line.                 |
'--------------+-------------------+----------------------------------------'

另外,这个readline快捷键在很多命令输入的地方都适用,比如MySQL客户端等。

Bash配置文件

可以参考bash(1)手册页中的FILES里的说明,这里罗列一下:

FILES
       /bin/bash
              The bash executable
       /etc/profile
              The systemwide initialization file, executed for login shells
       /etc/bash.bash_logout
              The systemwide login shell cleanup file, executed when a login shell exits
       ~/.bash_profile
              The personal initialization file, executed for login shells
       ~/.bashrc
              The individual per-interactive-shell startup file
       ~/.bash_logout
              The individual login shell cleanup file, executed when a login shell exits
       ~/.inputrc
              Individual readline initialization file

/etc目录下的配置文件是系统级的配置文件,有首先加载。用户主目录下的文件则会在用户登录的时候加载。
这里需要注意的是profilebash作为登录shell的时候才会执行,而.bashrc是交互shell时执行命令。rc正是run command的缩写。所以,这里需要注意的一点是,用户环境变量的设置一般要放在~/.bash_profile, 否则如果放在~/.bashrc中时,如果以非交互shell的方式运行bash,则会导致用户的环境变量得不到设置。另外,登录shell也就是需要做登录时启动的shell。再另外su - appusersu appuser的主要区别也是前者会模拟登录shell,加载~/.bashr_profile

命令组合

可以使用||以及&&来实现简化操作,例如:

[ -d /tmp/foo ] && echo '/tmp/foo exist' || mkdir /tmp/foo

循环

# ls -l *.h
for f in *.h
do
ls -l $f
done

# md5sum execute file of process which is end with `-s 200'
for pid in $(pgrep -f -- '-s 200$')
do
md5sum  $(readlink /proc/${pid}/exe)
done | sort

可以使用内置命令for执行一般的循环操作。

文本去重

# 去重并保持输入顺序
awk '!a[$0]++'
awk '!a[$0]++ {print}'
awk '!a[$0]++ {print $0}'

# 去重并排序
awk '!a[$0]++' | sort

这里前3条命令的效果是一样的。awk的默认行为是打印$0,也就是打印整行。

使用trap在脚本内捕捉信号

readonly PROGRAM=$(basename $0)
readonly TMP_OUTPUT=/tmp/${PROGRAM}.tmp

trap clean EXIT

function clean()
{
    rm -f $TMP_OUTPUT
}

上面的例子在脚本退出的时候,调用自定义函数clean执行清理工作,不管脚本是正常退出还是被kill。

原子操作

有时需要在脚本里执行原子操作,可以使用mkdir的检测目录是否存在和创建目录为原子操作实现。(注意,在NTFS文件系统中为非原子操作)。

readonly PROGRAM=$(basename $0)
readonly LOCK_DIR=/tmp/${PROGRAM}.lock
trap unlock EXIT

function unlock ()
{
    rmdir -f ${LOCK_DIR}
}

if mkdir ${LOCK_DIR}; then
    # get lock, do what we want here...
    ...
    unlock
fi

了解并使用Linux系统的特殊文件

/dev/stdin
: 标准输入。一般也可以- 表示标准输入。例如:

# grep from stdin
grep 'abc'

# also grep from stdin
grep 'abc' -

# still grep from stdin
grep 'abc' /dev/stdin

/dev/stdout
: 标准输出

/dev/stderr
: 标准错误

/dev/null
: 空文件,读入马上返回EOF;写入内容则被丢弃。

/dev/zero
: zero文件,读入返回0;写入内容会被丢去。

/dev/random
: 随机数发生器。

/dev/urandom
: 非阻塞的随机数发生器。

/proc/pid/
: 进程信息伪文件系统。可以在里查找到进程的相关信息。具体参考手册man 5 proc以及维基百科procfs

把进程放后台的4种方法

# run at background
sleep 30 &

# run at background and remove jobs from current shell
sleep 30 & disown

# ignore hang signal
nohup sleep 30

# execute command in sub-shell at backgroud and also make sub-shell run at backgroud
(sleep 10 &)&

一个好用的目录跳转工具

如果仅使用cd在目录之间跳转,往往需要输入很多字符,效率很低。这里推荐一个简单的shell脚本z
这里只是举例说明一下,有很多好用的辅助工具可以改进命令行操作的体验。

参考

命令行的艺术
Unix & Linux大学教程
Shell脚本学习指南
UNIX用户手册
UNIX环境高级编程

相关文章

  • SHELL脚本编程以及日常使用技巧

    基础 从一个命令行开始 该命令行使用grep命令在当前目录下的后缀为.h以及.cpp的文件中,查找包含printf...

  • Shell脚本学习指南

    《Shell脚本学习指南》Shell脚本编程(scripting)的技巧永远不会过时:它们可以让UNIX充分发挥其...

  • 78.shell编程

    shell编程 Shell脚本,是一种为shell编写的脚本程序。 Shell编程跟JavaScript、Pyth...

  • shell编程-交互 脚本菜单

    shell编程交互 脚本菜单 shell脚本的交互最常用的方式是使用菜单,通常是echo打印菜单出来。 上面的脚本...

  • shell脚本编程 - 技巧篇

    本篇并不讲述shell脚本编程的方法和规则,而是讲述如何更优雅的使用shell脚本。 调试方法 echo调试大法,...

  • shell编程

    Shell脚本,是一种为shell编写的脚本程序。 Shell编程跟JavaScript、Python编程一样,只...

  • Linux之Shell脚本编程(二)

    在上一篇博文中,主要介绍了Shell脚本编程的背景,怎样创建人生中第一个Shell脚本以及Shell变量等内容。接...

  • shell脚本基础

    编写脚本 编程基础 shell脚本 创建shell脚本 变量 运算 测试 配置用户的环境

  • 第十三、十四天

    学习内容:Linux shell、嵌入式Linux开发平台搭建收获: 初步掌握了shell脚本编程的各类语法以及执...

  • 大数据学习-Linux Shell脚本快速入门

    批量处理数据,难免会有在集群中使用Shell脚本,自动跑程序,下面快速入门Shell脚本编程,本文解决一下问题: ...

网友评论

      本文标题:SHELL脚本编程以及日常使用技巧

      本文链接:https://www.haomeiwen.com/subject/lmhndktx.html