美文网首页
2022-04-27使用 GSDS 绘制基因结构图

2022-04-27使用 GSDS 绘制基因结构图

作者: 麦冬花儿 | 来源:发表于2022-04-27 11:03 被阅读0次

GSDS 是由北京大学生物信息学中心提供的用于显示基因外显子、内含子、保守元件的组成和位置的一个在线服务,全英文界面。由于有些地方不是很好操做,这里把我的步骤列在下面。

图片.png

sequence (FASTA)格式

GSDS 2.0 目前提供四种格式:BED、GenBank Accession Number or GI、GTF/GFF3 和 sequence (FASTA)。前三种我都不会,所以不讲。

选中 sequence (FASTA) 格式后,要求上传 CDS sequence (FASTA) 和 Genomic sequence (FASTA) 两种文件。

图片.png

1. 获取 CDS sequence (FASTA)

CDS sequence (FASTA) 可以批量获取。打开 NCBI Batch Entrez,选择Protein,上传登陆号文件,具体参考 这个 。旁边 Send to 的时候选择 FASTA CDS 就可以。

图片.png

2. 获取 Genomic sequence (FASTA)

而 Genomic sequence (FASTA) 获取就较为繁琐,目前我还不知道有啥不用脚本就可以批量下载的方法。超费时间的手动获取方法流程如下:

  1. NCBI Batch Entrez 里选择 Gene,上传登陆号
  2. 点击列表,进入单个基因详情页
  3. 点击右下 FASTA,获取 DNA FASTA,复制结果,粘贴保存到同一个文件里
    下拉,找到 mRNA and Protein(s) 这一栏,对应的是蛋白质登陆号。

那么在详情页里获取到的必要信息有:

  • LOC105628049
  • JCGZ_05469
  • NW_012124111.1
  • XP_012064751.1

如果你已经用过 MapChart 绘制染色体定位图,并且已经按照染色体长度排序,且为每个登陆号都绑定了自己重命名的编号,就可以把这些数据全部收集到一起,方便查阅。建议建个表格,比如:

Number Rename Gene Name Gene ID ACCESSION Protein Size(aa) MW(Da) PI Location
1 JcHSP60-1 LOC105628049 JCGZ_05469 XP_012064751.1 574 61145.43 5.84 LG1

3. 整理数据

批量下载的 CDS sequence (FASTA) 文件大致如下,其中每个 CDS sequence 都包含了 类似XP_012080304.1 这样的蛋白质登陆号。

>lcl|XM_012224914.2_cds_XP_012080304.1_1 [gene=LOC105640534] [db_xref=GeneID:105640534] [protein=T-complex protein 1 subunit delta] [protein_id=XP_012080304.1] [location=209..1813] [gbkey=CDS]
序列

>lcl|XM_012209361.2_cds_XP_012064751.1_1 [gene=LOC105628049] [db_xref=GeneID:105628049] [protein=ruBisCO large subunit-binding protein subunit alpha] [protein_id=XP_012064751.1] [location=436..2196] [gbkey=CDS]
序列

整理的 Genomic sequence (FASTA) 文件大致如下,其中每个 Genomic sequence 都包含了类似 NW_012124182.1 这样的 DNA 登陆号。

>NW_012124182.1:c1896425-1890276 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold84, whole genome shotgun sequence
序列

>NW_012125068.1:c2591815-2589868 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold779, whole genome shotgun sequence
序列

而在上一步里,我们已经整理了大量数据,把 CDS sequence (FASTA) 文件和Genomic sequence (FASTA) 文件全部重命名一遍,每个数据都要一一对应。

最后应该是这样:

CDS sequence (FASTA) 文件

>JcHSP60-1
ATGGCAGCACCGGCAGTCTCCCAGCCTAGATCCTCCAAGACCGAGTCTTATGTTGACAATAAACGCAAGG
AGGATATCCGCCACGCTAATATAGTTGCCGCC以下省略

Genomic sequence (FASTA) 文件

>JcHSP60-1
GGGTAAAACAATTTCCAGTAACTAAACCTTGTCCAAAGCTAAAACCCTACCAAAAGCCCTCGCTTCTGAT
TCTGAATTGCAAACAGAAAAACAGCAGAAAA以下省略

结果

保存之后上传,默认参数不变,结果如图,仅供参考。

图片.png

相关文章

网友评论

      本文标题:2022-04-27使用 GSDS 绘制基因结构图

      本文链接:https://www.haomeiwen.com/subject/lswkyrtx.html