美文网首页mtDNA数据处理
生物信息之独孤九剑——cut

生物信息之独孤九剑——cut

作者: 基因学苑 | 来源:发表于2019-07-25 21:27 被阅读0次

    今年到目前写了不少内容,本来想写专题的,而且已经写了两个了,一共写了40篇。结果突然有一天发现,两年前写的一个专题还没有写完。本来要写一个生物信息之独孤九剑,结果只写了七篇,后来居然忘了继续更新,变成了《七种武器》。现在要继续更新完。令狐冲被费了内力,但却是《笑傲江湖》中的高手,原因在于他学会了独孤九剑,能够见招拆招。遇到任何问题都能有方法应对。我们给大家推荐的Linux九个重要命令,熟练之后,也可以处理生物信息分析中大量问题。

    1、cut介绍:

    cut顾名思义用来切割数据,就是将一段数据进行分割,然后取出我们想要的部分。可以简单的认为split命令是按照行来进行切分数据的,而cut则是按列来切分数据的。前面介绍过通过sed可以输出文件中任意的行,而通过cut可以输出任意的列。

    2、cut选项参数:

    -b :以字节为单位进行分割。

    -c :以字符为单位进行分割。

    -d :自定义分隔符,默认为制表符。

    -f  :与-d一起使用,指定显示哪个区域。

    -n :取消分割多字节字符。仅和 -b 标志一起使用。

    3、cut用法:

    cut命令主要是接受三个定位方法:

    第一,字节(bytes),用选项-b;

    第二,字符(characters),用选项-c;

    第三,域(fields),用选项-f。

    4、案例一:通过字节进行分割;

    比如这里有个一个blast比对m8格式的列表文件,生物数据分析中有很多列表格式的结果。

    我们使用cut -b 1 然后blastm8.list。就是将文件中每一行第一个字符输出出来。输出结果就是一堆字符gggggg。

    5、案例二:一次取出多个字节;

    cut支持多个字符,比如1-28,则将第一列提取出来了。

    6、案例三:自定义字符进行分割;

    -c是按照字符进行提取,和-b有些类似,这两个使用起来都不方便,因为刚才提到的-b和-c只能在固定格式的文档中提取信息,而对于非固定格式的信息则束手无策。这时候“域”就派上用场了。域其实就是先设置“间隔符”,再设置“提取第几个域”。

    比如还是刚才的例子,我们设置-d域的分割符为竖线,然后在通过-f指定提取第几个域即可,这里我们想要序列的Access Number,也就是文件中的NP和YP等字符。

    cut -d 竖线来分隔域,分隔之后,这部分是第四个域和第八个域的内容,我们设置-f即可。

    更多关于cut命令的功能,可以通过man cut或者cut --help查看。

    ---------- END ----------

    欢迎关注我们的微信公众号:基因学苑

    相关文章

      网友评论

        本文标题:生物信息之独孤九剑——cut

        本文链接:https://www.haomeiwen.com/subject/qowkrctx.html