美文网首页生物信息数据科学
27.《Bioinformatics-Data-Skills》之

27.《Bioinformatics-Data-Skills》之

作者: DataScience | 来源:发表于2021-06-22 10:08 被阅读0次

《Bioinformatics-Data-Skills》之文本数据总览

拿到一个文本数据后,我们可能会了解一下这个数据的基本情况,包括数据的行数,列数与大小。这些信息可以通过wc, awkls命令获取,具体方式如下。

1. 查看文本的行数

通过wc(word count)命令查看文本的行数,单词数与字符数目:

$ wc Mus_musculus.GRCm38.75_chr1.bed
81226  243678 1698545 Mus_musculus.GRCm38.75_chr1.bed

wc可以传入多个文件:

$ wc Mus_musculus.GRCm38.75_chr1.bed Mus_musculus.GRCm38.75_chr1.gtf
81226   243678  1698545 Mus_musculus.GRCm38.75_chr1.bed
81231  2385570 26607149 Mus_musculus.GRCm38.75_chr1.gtf
162457  2629248 28305694 total

当我们只关注文本的行数时,可以添加-l参数:

$ wc -l Mus_musculus.GRCm38.75_chr1.bed
81226 Mus_musculus.GRCm38.75_chr1.bed

2. 查看表格文本的列数

查看有固定分隔符的文件列数可以使用awk命令,举例说明:

$ awk -F "\t" '{print NF; exit}' Mus_musculus.GRCm38.75_chr1.bed
3

这里-F设定文件的分隔符为\tNFawk自带的变量代表列数,通过结果看出文件有3列。

当我们查看gtf注释文件的列数时,奇怪地发现这个文件只有一列?

$ awk -F "\t" '{print NF; exit}' Mus_musculus.GRCm38.75_chr1.gtf
1

通过打印前几行信息,我们发现这是因为此文件的头部是一些注释信息:

$ head -n 3 Mus_musculus.GRCm38.75_chr1.gtf
#!genome-build GRCm38.p2
#!genome-version GRCm38
#!genome-date 2012-01

这种文件注释的情况还是比较常见的,可以采用以下两种方法查看文件列数:

  1. 使用tail命令查看最后几行的列数

    $ tail Mus_musculus.GRCm38.75_chr1.gtf | awk -F "\t" '{print NF; exit}'
    9
    
  2. 使用grep命令跳过#开头的注释行

    $ grep -v "^#" Mus_musculus.GRCm38.75_chr1.gtf | awk -F "\t" '{print NF; exit}'
    9
    

3. 查看文件的大小

查看文件大小可以使用常用的命令ls加上-l参数:

$ ls -l Mus_musculus.GRCm38.75_chr1.bed
-rwxr-xr-x 1 way way 1698545 May 27 15:23 Mus_musculus.GRCm38.75_chr1.bed

第4列即文件的大小,单位是byte。我们可以加上-h参数来提高可读性:

$ ls -lh Mus_musculus.GRCm38.75_chr1.bed
-rwxr-xr-x 1 way way 1.7M May 27 15:23 Mus_musculus.GRCm38.75_chr1.bed

相关文章

网友评论

    本文标题:27.《Bioinformatics-Data-Skills》之

    本文链接:https://www.haomeiwen.com/subject/vtppyltx.html