美文网首页
字符处理工具

字符处理工具

作者: lukeyan | 来源:发表于2018-01-08 11:43 被阅读12次

    1、文本编码及字数统计

    主要概念

    当保存文本文件时,计算机会将字符转换成数字形式表示。这个过程就是文本的编码

    为了适应不同语言的需求,开发了多种不同的编码技术。这些技术以不同的字符集来代表

    最早流行的编码技术称为ASCII字符集,与其他技术相比,这种技术仍然是最通用的

    wc命令可统计文件中字符、文字和行的数量。当应用于结构化数据时,wc命令就是万能的统计工具

    cat命令有可以表显示非打印字符

    head命令和tail命令有允许用户只打印文件中某些行或者某些字节(一个字节通常对应一个字符)的选项

    2、正则表达式介绍

    主要概念

    正则表达式是一个指定文本模式标准UNIX语法

    许多命令都可接收正则表达式,包括grep、sed、vi和许多脚本语言

    在正则表达式中,用 . 和[]来匹配字符

    在正则表达式中,用^和$来指定一行的开始和结束

    在正则表达式中用+、*、和?来指定重复的项

    在正则表达式中用(、)和|来指定可选组

    3、排序命令:sort命令和uniq命令

    sort命令按字母表顺序排列数据

    sort -n 按数字顺序排列数据

    sort -u排列并删除重复数据

    sort -k和-t按指定字段对数据进行排序

    4、提取和组合文本:cut命令和paste命令

    cut命令可根据字节、字符或者指定的列从文本文件中提取文本

    paste命令将两个文本文件逐行合并

    5、追踪差异:diff命令

    主要概念

    diff 命令可以比较两个文件之间的差异

    diff命令支持多种格式输出,即可采用不同的命令行选项。最通用的格式为一体(unified)格式

    diff 命令可以忽略某些形式的差异,例如空白或者大写

    diff -r 命令递归比较两个目录的差异

    当我们对比两个目录时,diff命令可以忽略指定模式的文件

    6、文本转换:tr命令

    主要概念

    tr命令的功能是将标准输入读取的数据进行转换

    tr命令的最基本的形式是以字节换字节的方式执行

    使用-d命令行选项,tr命令将从一个数据流中删除特定的字符

    使用-s命令行选项,tr命令可将数据流中一系列重复的字符合并成一个字符

    7、拼写检查:aspell命令

    主要概念

    aspell -c 命令可对文件进行交互式拼写检查

    aspell --list命令可对标准输入进行非交互式拼写检查

    aspell dump命令可用来浏览系统词典或者用户的个人词典

    8、格式化文本(fmt)和文件分割(split)

    主要概念

    fmt命令可用不同的宽度重新格式化文件

    使用-p命令行选项,fmt命令将仅对以指定前缀开始的行重新格式化,并保留其前缀

    split命令可以以行数或者字节数为单位,将一个文件分割成多个文件

    相关文章

      网友评论

          本文标题:字符处理工具

          本文链接:https://www.haomeiwen.com/subject/hstunxtx.html