GENOME模块---基因组信息统计、批量启动子序列提取、批量的

作者: 许东 | 来源:发表于2021-05-16 21:54 被阅读0次

GENOME模块---基因组信息统计、批量启动子序列提取、批量的
bedtools批量提取基因组指定位置序列
GENE模块---从基因组中提取启动子，UTR序列，引物设计及限
利用bedtools提取基因组指定区域序列
python小程序--计算序列碱基个数
linux学习
GENES模块---批量的引物设计、批量的序列提取以及批量翻译
python小程序--实现DNA到RNA的转换
ncbi-genome-download:从NCBI上批量下载序
数据解析利器「正则表达式」

基因组信息统计，首先是对基本信息的统计，这些基本信息包括一个基因组的N50、N90、每个染色体或者scaffold的GC含量，N的比例以及每个染色体的各个碱基的个数。功能使用如下：

基因组信息统计

需要将基因组序列文件进行格式化，将格式化后的序列文件（fa文件，注意不是fai文件）放入位置1，然后设置保存位置并命名（位置2），然后点击相应按钮可以完成功能。

各个染色体的信息统计

接下来是各个染色体或者scaffold的信息统计，包括染色体ID，基因ID，每个基因的起始位置，终止位置。

根据ID提取gff文件的信息

考虑到有些同学可能只是关注某个染色体或者scaffold，这个时候需要提取某个染色体或者scaffold的gff信息，功能的实现只要输入染色体ID，然后放入文件即可点击按钮提取。

每个染色体的基因、内含子和CDS数量

在获得某个染色体的gff文件后，可以按按钮提取特定染色体基因数量、内含子数量以及CDS数量。

批量提取启动子序列，全序列

与之前功能使用类似，只要按照界面提示进行操作即可。首先是将格式化的基因组序列文件放入位置1，然后将含有要提取的基因的ID文件放入位置2（一个基因ID一行且应与GFF文件mRNA那一行的ID对应）。将gff文件放入位置3，填入要提取的启动子长度（位置4，默认的2000bp，如果不是这个长度，需要额外设定），填入保存位置并命名（位置5），点按钮“promoters”提取启动子序列，点击“full-length sequences” 提取基因全长，包括UTR区、内含子以及外显子。如果不需要UTR区，需要将GFF文件格式化，填入位置6，然后设定保持位置并命名（位置7），点击按钮即可。如果提取的有问题，不妨参考前面的文章“GENE模块---从基因组中提取启动子，UTR序列，引物设计及限定引物所产生的区域”，特别是关于对gff文件要求那里！