这一推送将介绍当你测序得到一段DNA序列后,可能会用到的基础操作。
一、拿到序列结果后,首先剔除可能的错误
一般送测序的样品往往经历纯化,克隆,转化等操作。期间不可避免会混有不是目标序列的片段。可能来自于载体,也可能是操作中的污染。为了避免浪费时间分析错误的、污染的序列。首先要学会找到序列中的非目标部分并编辑序列。
1. 载体序列
如果是克隆再测序,那么序列末端一般会带有载体的序列。可以查找序列中,可以与你使用的载体序列部分,然后删掉它。
可以利用NCBI的VecScreen工具,原理仍然是blast,但是其参数设置和检索数据库是适合找到序列中载体质粒部分的。
https://www.ncbi.nlm.nih.gov/tools/vecscreen/
VecScreen结果有两种可能:
(1)一种可能的检索结果是序列与已知载体没有高度相似部分,那么就直接继续对序列进行分析就可以;
(2)另一种结果是,发现序列有一部分与载体相似,仍分两种情况:
(2.a)如果在序列末端,那么可以删除后继续分析;
(2.b)如果相似部分在各处都有,或者是检索得到的载体甚至不是你使用的那个,可能是操作中污染了,就扔了重做吧。
2. 一些不用扔了重做的情况
如果VecScreen结果显示的你的序列两端有载体序列(类似于2.a的情况),但是载体名字不是你用的那个,也别立刻否定这个序列不能用了。因为很多载体质粒是在其他载体上进行改造产生的,所以序列上是可以对应的,名字却不同。
另外也要看你研究的目的基因,比如你研究的基因就是构建载体常用的抗性基因,那么VecScreen肯定会出现比对上的结果(我好像又废话了)。
二、限制性酶切图谱
之前介绍过Restriction map(【现学现卖】基因图谱概述)。得到理论上的限制酶切图谱很简单,只需要在序列中找限制性酶切位点。
现在很多序列分析软件都可以一键显示限制性酶切位点,另外推荐一些数据库:
1. REBASE database
http://rebase.neb.com/rebase/rebase.html
2. Webcutter
http://www.firstmarket.com/cutter/cut2.html
三、设计PCR引物
相信大家对PCR都很熟悉了(【现学现卖】实验-PCR),首先当然是需要设计引物。很多软件可以根据一段序列,设计符合条件的引物,还有线上的小工具,比如NCBI-primer designing tool等。
四、分析DNA序列的组成
1. GC含量、核苷酸组成等
可以使用Genomatix: DNA Sequence Toolbox页面中的creat sequence statistics按钮可以帮助我们分析序列的GC含量、单核苷酸、二核苷酸、三核苷酸组成等。
https://www.genomatix.de/cgi-bin/tools/tools.pl
2. 分析查找序列中的重复
DNA序列中的重复片段常参与基因重组和表达调控。
推荐工具
BioWeb(还有其他工具,它们算法各有不同。)
https://bioweb.pasteur.fr./welcome
里面的tools and packages-mreps等工具。其他工具都可以点开看看,有功能描述。
五、寻找蛋白质编码区域
前面我们检查了序列中有没有污染(载体序列污染),得到了限制性酶切位点,还有序列组成的一些数据。现在可以看看这段序列有没有、在何处可以编码蛋白质。
1. 用NCBI-ORF-Finder寻找开放阅读框
一段序列如果要编码蛋白质,需要有起始子(一般是ATG),并在一段距离之后有终止子(TAA, TAG, TGA),这就是开放阅读框的定义。
下面我们利用NCBI的ORF Finder来找序列中的开放阅读框。
https://www.ncbi.nlm.nih.gov/orffinder/
操作很简单,复制序列,选择适合自己的材料的遗传密码等参数,然后查找。我今天才发现,原来有这么多种遗传密码可以选择,31种耶!
结果显示界面也是比较清晰的。
2. 用GeneMark寻找开放阅读框
上述1方法外还有很多可以寻找ORF,比如一些序列分析软件。再介绍另外一个网页工具,GeneMark。
(1)打开主页
http://exon.gatech.edu/GeneMark/
主页展示了很多分类,选择适合自己的序列的分类,点击。
(2)结果页面很简洁,只展示前5个ORF基因。
六、组装(Assembling)序列片段
即识别序列重叠部分,将多个片段序列组装为一个序列。
这本书介绍了CAP3,一个短序列拼接的在线工具(在线工具处理序列的量有限。如果是处理二、三代测序的基因组数据,可以下载软件和工具包,很多不是windows系统下运行的,比如Canu。),输入序列格式fasta。
http://doua.prabi.fr/software/cap3
七、其他工具推荐
当然,如果你有一些DNA序列,能做的不仅仅是上述这些。欢迎留言,说说你实验中常见的目的、操作或者喜欢的软件、网站吧。
我先来推荐我用过感觉还不错的:
1. 序列操作工具箱
http://www.detaibio.com/sms2/rest_map.html
很多小工具,比如格式转换的,还有对序列、引物序列性质分析的等等。
2. 生物数学计算机
https://ita.promega.com/resources/tools/biomath/
适合头大,怕算错浓度和用量的时候。
往期相关内容:
对喜欢看推送的小伙伴们说声抱歉,好久没有更新,嘿嘿。
因为上周,我一不小心看了三本小说,《长夜难明》《三体Ⅰ》《三体Ⅱ》(都好看耶,Ⅲ正在很缓慢地看)
太奢侈的一周了,嘿嘿,身体力行,欢度中秋,喜迎国庆~
嗯嗯,继续一起学习吧!
欢度中秋 喜迎国庆 开学快乐
网友评论