1、文本编码及字数统计
主要概念
当保存文本文件时,计算机会将字符转换成数字形式表示。这个过程就是文本的编码
为了适应不同语言的需求,开发了多种不同的编码技术。这些技术以不同的字符集来代表
最早流行的编码技术称为ASCII字符集,与其他技术相比,这种技术仍然是最通用的
wc命令可统计文件中字符、文字和行的数量。当应用于结构化数据时,wc命令就是万能的统计工具
cat命令有可以表显示非打印字符
head命令和tail命令有允许用户只打印文件中某些行或者某些字节(一个字节通常对应一个字符)的选项
2、正则表达式介绍
主要概念
正则表达式是一个指定文本模式标准UNIX语法
许多命令都可接收正则表达式,包括grep、sed、vi和许多脚本语言
在正则表达式中,用 . 和[]来匹配字符
在正则表达式中,用^和$来指定一行的开始和结束
在正则表达式中用+、*、和?来指定重复的项
在正则表达式中用(、)和|来指定可选组
3、排序命令:sort命令和uniq命令
sort命令按字母表顺序排列数据
sort -n 按数字顺序排列数据
sort -u排列并删除重复数据
sort -k和-t按指定字段对数据进行排序
4、提取和组合文本:cut命令和paste命令
cut命令可根据字节、字符或者指定的列从文本文件中提取文本
paste命令将两个文本文件逐行合并
5、追踪差异:diff命令
主要概念
diff 命令可以比较两个文件之间的差异
diff命令支持多种格式输出,即可采用不同的命令行选项。最通用的格式为一体(unified)格式
diff 命令可以忽略某些形式的差异,例如空白或者大写
diff -r 命令递归比较两个目录的差异
当我们对比两个目录时,diff命令可以忽略指定模式的文件
6、文本转换:tr命令
主要概念
tr命令的功能是将标准输入读取的数据进行转换
tr命令的最基本的形式是以字节换字节的方式执行
使用-d命令行选项,tr命令将从一个数据流中删除特定的字符
使用-s命令行选项,tr命令可将数据流中一系列重复的字符合并成一个字符
7、拼写检查:aspell命令
主要概念
aspell -c 命令可对文件进行交互式拼写检查
aspell --list命令可对标准输入进行非交互式拼写检查
aspell dump命令可用来浏览系统词典或者用户的个人词典
8、格式化文本(fmt)和文件分割(split)
主要概念
fmt命令可用不同的宽度重新格式化文件
使用-p命令行选项,fmt命令将仅对以指定前缀开始的行重新格式化,并保留其前缀
split命令可以以行数或者字节数为单位,将一个文件分割成多个文件
网友评论