不会编程，如何快速提取序列

作者: 基因学苑 | 来源:发表于2019-07-25 21:36 被阅读0次

不会编程，如何快速提取序列
不会编程，如何快速截取序列
人员信息提取其实很简单
python接口自动化小技巧-参数提取
基因序列常用操作
GFF文件和基因组文件提取mRNA,cds,protein序列
提取参考基因组某个位置的碱基
b etter
Python提取基因序列
利用bedtools提取基因组指定区域序列

提取序列是生物信息分析中常见的一个操作，也是学习生物信息编程的入门操作。通常是给定基因ID，然后从一个大的数据集里面提取出匹配ID的序列，包含匹配的序列ID和序列信息，类似于Excel中的Vlookup，但是这里需要一个包含序列ID的列表以及一个包含序列的fasta格式文件。如果不会编程该如何提取呢，今天我们就介绍一些方法。

例如这里有五条序列，我们需要根据基因ID，提取出gene3和gene5的内容。

>gene1

AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTCTCTGACAGCAGC

TTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAA

TATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACC

>gene2

ATTACCACCACCATCACCACCACCATCACCATTACCATTACCACAGGTAACGGTGCGGGCTGACGCGTAC

AGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTCGACCAAAGGTAACGAGGTAACA

>gene3

ACCATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGGGTTGCCGATA

TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCA

CCTGGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGT

ATTTTTGCCGAACTTCTGACGGGACTCGCCGCCGCCCAGCCGGGATTCCCGCTGGCGCAATTGAAAACTT

>gene4

TCGTCGACCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTAGGGCAGTGCCCGGA

TAGCATTAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCCATTATGGCCGGCGTATTAGAA

>gene5

GCGCGCGGTCACAACGTTACCGTTATCGATCCGGTCGAAAAACTGCTGGCAGTGGGGCATTACCTCGAAT

CTACTGTCGATATTGCAGAGTCCACCCGCCGTATTGCGGCAAGTCGTATTCCGGCTGATCACATGGTGCT

GATGGCAGGTTTCACCGCCGGTAATGAAAAAGGCGAACTGGTGGTACTTGGACGCAACGGTTCCGACTAC

TCCGCGGCGGTGCTGGCTGCCTGTTTACGCGCCGATTGTTGCGAGATTTGGACGGACGTTGACGGGGTAT

原始方法

直接用文本编辑器打开，然后直接Ctrl+C复制，Ctrl+V粘贴，不过这样处理稍微大一点的数据，不仅效率低下，而且很容易出错，直至就会把人搞奔溃，我们坚决抵制这种做法。

sed

利用sed提取，我们首先使用less -N查看一下这两条序列对应的行号，然后就可以利用sed输出任意行的内容了。

less-N gene.fna

sed -n'8,12p;16,20p'gene.fna

awk

awk也可以输出固定行的内容，或者匹配固定行的内容。其中NR代表行号，number row。

awk'NR>=8 && NR<12 {print}'gene.fna

awk'NR>=16 && NR<20 {print}'gene.fna

grep

grep可以用于匹配ID，-A选项可以设置输出匹配后的几行，我们首先利用seqtk工具将fasta序列都格式化为两行一个单位。

seqtkseq-l0gene.fna>gene.fa

grep-A1 "gene[3|5]"gene.fa

samtools

以上几种方法处理一些小序列还行，如果一次有100个基因ID，也不太方便。

这种情况下强烈推荐samtools工具。利用samtools建立索引，就可以完成快速提取序列。

#首先为利用faidx为fasta文件建立索引

samtoolsfaidx gene.fna

#创建索引之后就可以快速提取了

samtools faidx gene.fna gene3 gene5

编程

其实用编程也很容易实现，无论是perl还是python都不难，首先将ID和序列存储为一个哈希或者字典型的数据结构，然后就可以很方便的利用ID进行查找了。

#将基因ID写入到gene.list文件中，每行一个基因ID

perlget_seq_bylist.plgene.listgene.fna

后台回复“提取序列”，获得该程序，如果你有更好的方法，也可以留言给我们。

---------- END ----------

欢迎订阅我们的微信订阅号：基因学苑

网友评论

本文标题：不会编程，如何快速提取序列

本文链接：https://www.haomeiwen.com/subject/cbgkrctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

不会编程，如何快速提取序列

相关文章