NCBI基因及启动子序列查找

作者: Wei_Sun | 来源:发表于2021-09-09 11:35 被阅读0次

NCBI基因及启动子序列查找
如何寻找基因的启动子——NCBI版
一步一步教你使用 NCBI 查找DNA、mRNA、cDNA、引
Clone Manager：RT-PCR/qPCR引物设计
4️⃣ 核酸序列特征分析(3):启动子及转录因子结合位点预测和转
使用Ensembl查找基因启动子序列
NCBI获取物种线粒体基因的一种方法
启动子作用功能以及分类介绍
基因转录调控
如何利用DNASTAR进行序列比对

当已知基因名或ID时，可通过NCBI搜索基因序列。首先登陆NCBI官网，在下拉菜单选择gene，搜索基因名或ID。
NCBI：https://www.ncbi.nlm.nih.gov/
这里选取一个调节根系发育的基因AT5G61350进行示例。

搜索结果共有159个，分别在不同的物种中，第一列是基因名和基因ID；第二列是简单的功能描述，中括号内为物种名；第三别是基因在基因组中的位置；第四列为其他名称。

点击基因名称进入详情页，summary中是对gene的主要介绍，包括基因名，基因的类型，以及主要的功能。

Genomic context部分，要注意基因的方向，这个基因的方向是从左往右，左侧为起始位置。如果是从右往左，那右侧则是起始位置。

点击fasta获得基因序列。下图所示，左侧为5'UTR，右侧为3'UTR，中间深绿色全部是外显子，也就是CDS编码区，这个基因没有内含子。

FASTA格式

在生物信息学中，FASTA格式（又称为Pearson格式）是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。

FASTA文件以序列表示和序列作为一个基本单元，各行记录信息如下：
第一行是由大于号">"开头的任意文字说明，用于序列标记，为了保证后续分析软件能够区分每条序列，单个序列的标识必须具有唯一性；
从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可，而氨基酸常用大写字母。

具体字母代表的含义如下：
核苷酸序列：

        A --> adenosine           M --> A C (amino)
        C --> cytidine            S --> G C (strong)
        G --> guanine             W --> A T (weak)
        T --> thymidine           B --> G T C
        U --> uridine             D --> G A T
        R --> G A (purine)        H --> A C T
        Y --> T C (pyrimidine)    V --> G C A
        K --> G T (keto)          N --> A G C T (any)
                                  -  gap of indeterminate length

氨基酸序列：

    A  alanine                         P  proline
    B  aspartate or asparagine         Q  glutamine
    C  cystine                         R  arginine
    D  aspartate                       S  serine
    E  glutamate                       T  threonine
    F  phenylalanine                   U  selenocysteine
    G  glycine                         V  valine
    H  histidine                       W  tryptophan
    I  isoleucine                      Y  tyrosine
    K  lysine                          Z  glutamate or glutamine
    L  leucine                         X  any
    M  methionine                      *  translation stop
    N  asparagine                      -  gap of indeterminate length

查看fasta，左侧为CDS序列，右侧方框内为序列所在范围，24667873——24670749。