- 27.《Bioinformatics-Data-Skills》之
- 28.《Bioinformatics-Data-Skills》之
- 18.《Bioinformatics-Data-Skills》之
- 19.《Bioinformatics-Data-Skills》之
- 17.《Bioinformatics-Data-Skills》之
- 25.《Bioinformatics-Data-Skills》之
- 25.《Bioinformatics-Data-Skills》之
- 23.《Bioinformatics-Data-Skills》之
- 24.《Bioinformatics-Data-Skills》之
- 21.《Bioinformatics-Data-Skills》之
《Bioinformatics-Data-Skills》之文本数据总览
拿到一个文本数据后,我们可能会了解一下这个数据的基本情况,包括数据的行数,列数与大小。这些信息可以通过wc
, awk
与ls
命令获取,具体方式如下。
1. 查看文本的行数
通过wc
(word count)命令查看文本的行数,单词数与字符数目:
$ wc Mus_musculus.GRCm38.75_chr1.bed
81226 243678 1698545 Mus_musculus.GRCm38.75_chr1.bed
wc
可以传入多个文件:
$ wc Mus_musculus.GRCm38.75_chr1.bed Mus_musculus.GRCm38.75_chr1.gtf
81226 243678 1698545 Mus_musculus.GRCm38.75_chr1.bed
81231 2385570 26607149 Mus_musculus.GRCm38.75_chr1.gtf
162457 2629248 28305694 total
当我们只关注文本的行数时,可以添加-l
参数:
$ wc -l Mus_musculus.GRCm38.75_chr1.bed
81226 Mus_musculus.GRCm38.75_chr1.bed
2. 查看表格文本的列数
查看有固定分隔符的文件列数可以使用awk
命令,举例说明:
$ awk -F "\t" '{print NF; exit}' Mus_musculus.GRCm38.75_chr1.bed
3
这里-F
设定文件的分隔符为\t
,NF
是awk
自带的变量代表列数,通过结果看出文件有3列。
当我们查看gtf注释文件的列数时,奇怪地发现这个文件只有一列?
$ awk -F "\t" '{print NF; exit}' Mus_musculus.GRCm38.75_chr1.gtf
1
通过打印前几行信息,我们发现这是因为此文件的头部是一些注释信息:
$ head -n 3 Mus_musculus.GRCm38.75_chr1.gtf
#!genome-build GRCm38.p2
#!genome-version GRCm38
#!genome-date 2012-01
这种文件注释的情况还是比较常见的,可以采用以下两种方法查看文件列数:
-
使用
tail
命令查看最后几行的列数$ tail Mus_musculus.GRCm38.75_chr1.gtf | awk -F "\t" '{print NF; exit}' 9
-
使用
grep
命令跳过#
开头的注释行$ grep -v "^#" Mus_musculus.GRCm38.75_chr1.gtf | awk -F "\t" '{print NF; exit}' 9
3. 查看文件的大小
查看文件大小可以使用常用的命令ls
加上-l
参数:
$ ls -l Mus_musculus.GRCm38.75_chr1.bed
-rwxr-xr-x 1 way way 1698545 May 27 15:23 Mus_musculus.GRCm38.75_chr1.bed
第4列即文件的大小,单位是byte。我们可以加上-h
参数来提高可读性:
$ ls -lh Mus_musculus.GRCm38.75_chr1.bed
-rwxr-xr-x 1 way way 1.7M May 27 15:23 Mus_musculus.GRCm38.75_chr1.bed
网友评论