当已知基因名或ID时,可通过NCBI搜索基因序列。首先登陆NCBI官网,在下拉菜单选择gene,搜索基因名或ID。
NCBI:https://www.ncbi.nlm.nih.gov/
这里选取一个调节根系发育的基因AT5G61350进行示例。
搜索结果共有159个,分别在不同的物种中,第一列是基因名和基因ID;第二列是简单的功能描述,中括号内为物种名;第三别是基因在基因组中的位置;第四列为其他名称。
点击基因名称进入详情页,summary中是对gene的主要介绍,包括基因名,基因的类型,以及主要的功能。
Genomic context部分,要注意基因的方向,这个基因的方向是从左往右,左侧为起始位置。如果是从右往左,那右侧则是起始位置。
点击fasta获得基因序列。下图所示,左侧为5'UTR,右侧为3'UTR,中间深绿色全部是外显子,也就是CDS编码区,这个基因没有内含子。
FASTA格式
在生物信息学中,FASTA格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。
FASTA文件以序列表示和序列作为一个基本单元,各行记录信息如下:
第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性;
从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。
具体字母代表的含义如下:
核苷酸序列:
A --> adenosine M --> A C (amino)
C --> cytidine S --> G C (strong)
G --> guanine W --> A T (weak)
T --> thymidine B --> G T C
U --> uridine D --> G A T
R --> G A (purine) H --> A C T
Y --> T C (pyrimidine) V --> G C A
K --> G T (keto) N --> A G C T (any)
- gap of indeterminate length
氨基酸序列:
A alanine P proline
B aspartate or asparagine Q glutamine
C cystine R arginine
D aspartate S serine
E glutamate T threonine
F phenylalanine U selenocysteine
G glycine V valine
H histidine W tryptophan
I isoleucine Y tyrosine
K lysine Z glutamate or glutamine
L leucine X any
M methionine * translation stop
N asparagine - gap of indeterminate length
查看fasta,左侧为CDS序列,右侧方框内为序列所在范围,24667873——24670749。
通常认为启动子在基因上游2kb范围内,这个基因的方向从左至右,因此启动子范围就在基因左侧起始位置加2kb,24665873——24667872。如果基因方向是从右向左,那么启动子区域就是右侧位置加上2Kb。
FASTA格式参考:
https://www.jianshu.com/p/cd232d34c408
网友评论