写在前面
《-零命令行-生信下游数据分析》的第一帖主题,定为序列提取。因为序列提取,可以说是目前最常见的需求,其主要见于场景:
- 物种基因组已公布,但没有对应的数据库,而我只是需要某个染色体的一个区段
- 手上有无参考转录组组装结果,需要从其中提取出一些我感兴趣的基因的序列,如某几个差异表达基因
- ....
场景有很多。而目的只有一个,即省时省事地得到我要的序列。
准备数据
- 序列文件,Fasta格式(任何Fasta格式的序列文件,如genome.fa, unigenes.fa, proteins.fa, cds.fa....)
-
序列ID列表,或带需要的区间坐标信息 (普通的tab分隔的文本文件)
image.png
如果是要提取某个序列的某个区段,那么可能ID后面加上区段信息,如果需要对提取出来的区段命名,则在ID前面添加信息
image.png
开始提取
-
首先打开TBtools,并选择对应的工具Amazing Fasta Extractor
image.png
-
设置序列库文件
一般TBtools提供两种数据输入方式 ,推荐直接使用鼠标拖拽
image.png
image.png -
提取序列
image.png
如果一次提取少量序列,只是快速使用,那么无需设置输出文件,直接勾选,使提取的序列显示在对话框,用于文本复制与黏贴
如果序列较多,或者要直接保存输出到文件中,那么可以设置一个输出文件
image.png
同样的方式 ,如果是要提取某个序列区段
image.png
-
其他需求
关于序列提取,整体上,以上的操作应该是已经满足了大部分人的需求,当然还有其他需求,剩下的几个选项,可自行摸索
image.png
或者,建议加入TBtools使用交流群- QQ群,与其他在科研工作中使用TBtools的朋友交流
网友评论