美文网首页科普工具文毕业论文
NCBI基因及启动子序列查找

NCBI基因及启动子序列查找

作者: Wei_Sun | 来源:发表于2021-09-09 11:35 被阅读0次

    当已知基因名或ID时,可通过NCBI搜索基因序列。首先登陆NCBI官网,在下拉菜单选择gene,搜索基因名或ID。
    NCBI:https://www.ncbi.nlm.nih.gov/
    这里选取一个调节根系发育的基因AT5G61350进行示例。


    搜索结果共有159个,分别在不同的物种中,第一列是基因名和基因ID;第二列是简单的功能描述,中括号内为物种名;第三别是基因在基因组中的位置;第四列为其他名称。

    点击基因名称进入详情页,summary中是对gene的主要介绍,包括基因名,基因的类型,以及主要的功能。

    Genomic context部分,要注意基因的方向,这个基因的方向是从左往右,左侧为起始位置。如果是从右往左,那右侧则是起始位置。

    点击fasta获得基因序列。下图所示,左侧为5'UTR,右侧为3'UTR,中间深绿色全部是外显子,也就是CDS编码区,这个基因没有内含子。

    FASTA格式

    在生物信息学中,FASTA格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。

    FASTA文件以序列表示和序列作为一个基本单元,各行记录信息如下:
    第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性;
    从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。

    具体字母代表的含义如下:
    核苷酸序列:

            A --> adenosine           M --> A C (amino)
            C --> cytidine            S --> G C (strong)
            G --> guanine             W --> A T (weak)
            T --> thymidine           B --> G T C
            U --> uridine             D --> G A T
            R --> G A (purine)        H --> A C T
            Y --> T C (pyrimidine)    V --> G C A
            K --> G T (keto)          N --> A G C T (any)
                                      -  gap of indeterminate length
    

    氨基酸序列:

        A  alanine                         P  proline
        B  aspartate or asparagine         Q  glutamine
        C  cystine                         R  arginine
        D  aspartate                       S  serine
        E  glutamate                       T  threonine
        F  phenylalanine                   U  selenocysteine
        G  glycine                         V  valine
        H  histidine                       W  tryptophan
        I  isoleucine                      Y  tyrosine
        K  lysine                          Z  glutamate or glutamine
        L  leucine                         X  any
        M  methionine                      *  translation stop
        N  asparagine                      -  gap of indeterminate length
    

    查看fasta,左侧为CDS序列,右侧方框内为序列所在范围,24667873——24670749。



    通常认为启动子在基因上游2kb范围内,这个基因的方向从左至右,因此启动子范围就在基因左侧起始位置加2kb,24665873——24667872。如果基因方向是从右向左,那么启动子区域就是右侧位置加上2Kb。


    FASTA格式参考:
    https://www.jianshu.com/p/cd232d34c408

    引用请注明出处,如有错误敬请指出。

    相关文章

      网友评论

        本文标题:NCBI基因及启动子序列查找

        本文链接:https://www.haomeiwen.com/subject/cujiwltx.html