不会编程,如何快速提取序列

作者: 基因学苑 | 来源:发表于2019-07-25 21:36 被阅读0次

    提取序列是生物信息分析中常见的一个操作,也是学习生物信息编程的入门操作。通常是给定基因ID,然后从一个大的数据集里面提取出匹配ID的序列,包含匹配的序列ID和序列信息,类似于Excel中的Vlookup,但是这里需要一个包含序列ID的列表以及一个包含序列的fasta格式文件。如果不会编程该如何提取呢,今天我们就介绍一些方法。

    例如这里有五条序列,我们需要根据基因ID,提取出gene3和gene5的内容。

    >gene1

    AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTCTCTGACAGCAGC

    TTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAA

    TATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACC

    >gene2

    ATTACCACCACCATCACCACCACCATCACCATTACCATTACCACAGGTAACGGTGCGGGCTGACGCGTAC

    AGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTCGACCAAAGGTAACGAGGTAACA

    >gene3

    ACCATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGGGTTGCCGATA

    TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCA

    CCTGGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGT

    ATTTTTGCCGAACTTCTGACGGGACTCGCCGCCGCCCAGCCGGGATTCCCGCTGGCGCAATTGAAAACTT

    >gene4

    TCGTCGACCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTAGGGCAGTGCCCGGA

    TAGCATTAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCCATTATGGCCGGCGTATTAGAA

    >gene5

    GCGCGCGGTCACAACGTTACCGTTATCGATCCGGTCGAAAAACTGCTGGCAGTGGGGCATTACCTCGAAT

    CTACTGTCGATATTGCAGAGTCCACCCGCCGTATTGCGGCAAGTCGTATTCCGGCTGATCACATGGTGCT

    GATGGCAGGTTTCACCGCCGGTAATGAAAAAGGCGAACTGGTGGTACTTGGACGCAACGGTTCCGACTAC

    TCCGCGGCGGTGCTGGCTGCCTGTTTACGCGCCGATTGTTGCGAGATTTGGACGGACGTTGACGGGGTAT

    原始方法

    直接用文本编辑器打开,然后直接Ctrl+C复制,Ctrl+V粘贴,不过这样处理稍微大一点的数据,不仅效率低下,而且很容易出错,直至就会把人搞奔溃,我们坚决抵制这种做法。

    sed

    利用sed提取,我们首先使用less -N查看一下这两条序列对应的行号,然后就可以利用sed输出任意行的内容了。

    less-N gene.fna

    sed -n'8,12p;16,20p'gene.fna

    awk 

    awk也可以输出固定行的内容,或者匹配固定行的内容。其中NR代表行号,number row。

    awk'NR>=8  && NR<12 {print}'gene.fna

    awk'NR>=16 && NR<20 {print}'gene.fna

    grep

    grep可以用于匹配ID,-A选项可以设置输出匹配后的几行,我们首先利用seqtk工具将fasta序列都格式化为两行一个单位。

    seqtkseq-l0gene.fna>gene.fa

    grep-A1 "gene[3|5]"gene.fa

    samtools

    以上几种方法处理一些小序列还行,如果一次有100个基因ID,也不太方便。

    这种情况下强烈推荐samtools工具。利用samtools建立索引,就可以完成快速提取序列。

    #首先为利用faidx为fasta文件建立索引

    samtoolsfaidx gene.fna

    #创建索引之后就可以快速提取了

    samtools faidx gene.fna gene3 gene5

    编程

    其实用编程也很容易实现,无论是perl还是python都不难,首先将ID和序列存储为一个哈希或者字典型的数据结构,然后就可以很方便的利用ID进行查找了。

    #将基因ID写入到gene.list文件中,每行一个基因ID

    perlget_seq_bylist.plgene.listgene.fna

    后台回复“提取序列”,获得该程序,如果你有更好的方法,也可以留言给我们。

    ---------- END ----------

    欢迎订阅我们的微信订阅号:基因学苑

    相关文章

      网友评论

        本文标题:不会编程,如何快速提取序列

        本文链接:https://www.haomeiwen.com/subject/cbgkrctx.html