美文网首页提取特定位置的基因组序列基因家族分析
GENE模块---从基因组中提取启动子,UTR序列,引物设计及限

GENE模块---从基因组中提取启动子,UTR序列,引物设计及限

作者: 许东 | 来源:发表于2021-04-11 22:24 被阅读0次

    从基因组中提取启动子序列,UTR序列往往是费时费力的过程。SPDE的gene模块是专门为那些从事纯粹实验工作的老师与学生设计。其具体过程如下:

    点击SPDE的gene模块(如红色箭头所示):

    SPDE的gene模块

    在第二个板块中,用户可以提取启动子序列(①),不含UTR区基因全长(②),含有UTR区的基因全长(③)以及提取UTR区(④):

    从基因组序列中提取四种序列

    其使用过程只需要按照软件表面的提示输入相应内容即可。

    第一个框中提示的是基因ID:请大家注意,这里的基因ID指的是GFF/GFF3文件mRNA这一行所对应的ID,如下图所示:

    基因ID所在的位置

    第二框提示的是启动子长度,给大家默认提取的是2000 bp长度,对启动子克隆而言,该长度足够。因此,如果你想提取的确实是2000 bp,那么该位置不需要输入数值,但,如果有其他长度需求,那么想提取多长,就输入多长即可,例如输入1500:

    想要提取1500 bp启动子时的参数设置

    第三框,提示的是输入原始的GFF/GFF3文件。那么,这个文件就是原始的GFF文件,其基本形式应该是或者类似这样子:

    标准GFF/GFF3文件

    第四框,提示的是输入格式化的基因组序列文件。基因组序列文件指的是标明每条染色体或者scaffold上有哪些序列的文件,例如:

    基因组序列文件

    而格式化的意思是需要将你的基因组序列文件进行处理,生成一个可利用的索引文件(即fai文件)。该过程的实现放在了SPDE的format模块,如下:

    格式化基因组序列文件

    会生成一个后缀为fai的文件,在这里,同学们需要注意,刚刚上面所说的第四个框中放入的文件是基因组序列文件而不是生成的这个fai文件,大家可以将fai文件理解成一本书的目录而我们想要阅读的并不是书的目录而是书的内容,但目录的存在可以使我们更方便的找到想要的内容,仅此而已。所以,正式放入的应该是基因组序列文件。另外,需要对放入的ID补充一点:SPDE默认的ID是gff文件中关键词mRNA所对应的后面的ID,如下图所示:

    ID

    ID指的是等号之后,分号之前的部分。用gff文件时请大家检查三个问题:一个是gff文件第一列所注明的染色体ID是否与你基因组文件格式化后产生的fai文件中的ID是一致的?第二个是你的gff文件里是否有关键词mRNA(如果没有的话可以批量替换一下)?第三个是你所使用的ID是否是正确的?给大家提供了一个只需要输入ID就可以从基因组文件中提取序列的方法,方便的同时也对文件格式有严格的要求。有些感慨,鱼与熊掌不可兼得。不过,在后续的版本中会考虑另外的形式以解决这个问题。

    当上述四个框按照提示放入正确的文件或者信息后,只要点击相应的按钮,就可以在右侧的框中看到相应的序列,例如:

    提取的内容在右侧框中显示

    在提取启动子后,大家可能要设计引物进行克隆。在第一个模块的第三个部分,安排了引物设计功能。这部分的核心是primer3程序。基本用法只需要按照界面提示进行即可,有以下几个点,请大家注意:

    引物设计

    第一框中是放入基因序列,那么只需要将你的序列拷贝进来即可。在NCBI或者拟南芥的Tail数据库,大家经常可以看到这种类型的序列:

    NCBI序列格式

    前面有数字,序列与序列间有空格。这种序列大家并不需要额外处理,直接拷贝就好。在程序设计的过程中已经考虑到这个问题,SPDE会自动帮大家去除这些额外的东西。

    第二框中是输入PCR产物的长度。这里放入的一定是一个范围,例如,150-250。两个数字中间由英文状态的短横线连接。如果只放入150,这样的单个数字是无法得到结果的。原因很简单,假设序列长度就是150 bp而你放入150,那么引物就只能一头一尾的20 bp左右的序列,这种情况根本没有设计的必要。

    第三框是可选选项,不是必须填写的。这个框的作用是为了限定引物产生的区域。输入的数据格式是F端引物起始位置+逗号+长度+逗号+R端引物起始位置+逗号+长度。例如,我想要在序列的100到300 bp产生我的F端引物而将R端引物设计在序列的450到600 bp这个区间内,那么这个时候,你的输入内容应该是:100,200,450,150。注意要在英文状态下输入。如果,我只想限定F端引物在100到300bp,而R端引物随意,那么这个时候该如何设定呢?例如:100,200,,。请注意,虽然你的R端随意,数字不需要写,但逗号需要保留。如果F端随意而R端需要限定,那么方法雷同。另外,需要注意的是,这个限定的范围不应该超过你输入的PCR产物的长度。假设你的PCR产物长度是100 bp而你输入的限定条件是100,200,450,150。这个限定所产生的产物的最短长度应该是150 bp。这与你的PCR产物长度是冲突的,这个时候会出现错误。

    第四框是产生控制文件。这个控制文件里的内容是已经经过调整的、关于引物设计的各类参数,请大家安心,SPDE中所设计的引物,已经经过了qPCR验证,一般情况下是没有问题的。但,考虑到可能某些同学对引物有特殊的设计需求,因此决定将这个控制文件还是提供给大家。在产生控制文件后,如果还是需要对参数进行调整,那么只需要在产生的控制文件的相应部分更改,然后保存即可。控制文件的产生是点击按钮“generate the control file” 完成的,如下:

    产生控制文件的按钮

    建议大家也将文件的名字直接命名成control.txt就好。当然,如果对引物参数(例如,GC含量,Tm值范围)没有特殊需求,那么在设计完引物后,将该文件直接删除就好。简单点儿说就是,控制文件可能不需操作,但一定要有。

    完成这些之后,点击下面的设计引物按钮,那么就会在右侧的框中显示设计的结果,如下:

    引物设计的结果

    当然,除了上述功能,第一模块还提供了其他一些小的功能,方便大家日常的一些序列处理,这些序列处理包括:

    日常的序列处理

    将DNA转为RNA;计算输入序列的长度;计算GC含量;将序列反向;翻译DNA序列;将序列反向互补。最后一个是移除额外信息。针对的仍然是像NCBI中的这种带有大量额外字符的序列(如上数第十图)。结果是序列前面的数字和序列中的空格将被全部去除并且将不同行的序列归到一行中。想要使用哪个功能,直接点击该功能前的圆圈即可。

    相关文章

      网友评论

        本文标题:GENE模块---从基因组中提取启动子,UTR序列,引物设计及限

        本文链接:https://www.haomeiwen.com/subject/wgezkltx.html