美文网首页
如何获取参考基因组和基因注释?NCBI,genbank,refs

如何获取参考基因组和基因注释?NCBI,genbank,refs

作者: Ai基因测序 | 来源:发表于2024-07-07 14:39 被阅读0次

1.参考基因组,基因注释之间的关系

参考基因是指完成了测序和组装的完整基因组序列,常写在fasta文件中(后面我们聚类分析需要用到参考基因组)

但这些fasta文件简直就是天书,所以我们需要有人来解释他,基因注释应用而生

基因组注释则是指对参考基因组序列中的基因和其他DNA序列特征进行识别和描述的过程,包括基因的名称、位置、结构、功能等信息.其常见格式如下

  • GFF (General Feature Format) :

  • GFF是一种用来描述基因组特征的文件格式,目前普遍使用的是第三版(gff3)。

  • GFF文件由9列组成,包括序列标识符、注释来源、注释类型、起始位置、终止位置、得分、链(正负)、相位以及属性等信息。

  • 属性列包含以“键=值”形式的多个属性,如ID、Name、Alias、Note等。

  • GTF (Gene Transfer Format) :

  • GTF格式主要用来对基因进行注释,广泛使用的是第二版(gtf2)。

  • GTF文件同样由9列组成,与GFF类似,但属性列专注于基因相关的注释,通常包含gene_idtranscript_id

  • BED (Browser Extensible Data),引物文件常用此格式 :

  • BED文件通常用于表示基因组中的区域信息,例如Peak位置或基因注释。

  • BED文件可以包含3到12列,包括染色体名称、区域起始位置(0-based)、区域终止位置等

  • 2.参考基因组的命名

    参考基因组的命名遵循一定的规则和标准,由参考基因组联盟Genome Reference Consortium (GRC)负责。,它是由 NCBI,EBI,桑格研究所等机构组成。GRC 利用最佳的技术装配,纠正,增加基因组序列,以此作为在生信分析领域作为参考的基因组。目前,该机构构建了人,小鼠,大鼠,斑马鱼,鸡的参考基因组。以下是一些常见的命名规则和例子:

  • GRC官方命名:GRC为每个构建的参考基因组分配一个官方名称,如人类参考基因组的 "GRCh38"(Genome Reference Consortium Human Build 38)。

  • UCSC版本命名:UCSC基因组浏览器为每个参考基因组版本分配一个简称,如 "hg38" 对应 GRCh38。

  • Ensembl命名:Ensembl数据库也使用类似GRC的命名方式,如 "GRCh38"。

  • NCBI和RefSeq命名:NCBI和RefSeq使用类似的命名规则,如GenBank中的 "GCA_000001405.15" 和RefSeq中的 "GCF_000001405.26" 都对应GRCh38。

  • 补丁命名:当在不更改染色体坐标的情况下更新参考基因组时,会在版本后加 .p 表示补丁,如 "GRCh38.p9"。

  • NCBI RefSeq命名格式:RefSeq记录使用特定的前缀来区分不同类型的序列,例如:

  • "NM_" 前缀用于成熟的mRNA转录本。

  • "NP_" 前缀用于蛋白质产品,通常包括全长前体蛋白。

  • "XM_" 和 "XP_" 前缀分别用于模型mRNA和蛋白质,它们由基因组注释流程提供。

  • 版本升级:随着新技术的应用,参考基因组会不断更新,形成新的版本。例如,从 "hg18" 到 "hg19",再到 "hg38",坐标系统和基因组组装可能发生变化。

    不同版本间的差异:不同版本的参考基因组可能在基因组组装、基因注释和序列上有所区别。例如,"hg19" 和 "hs37d5"(b37的升级版)在某些方面存在差异,如线粒体序列和染色体命名。

    3.上面提到的这么多简写到底是啥

    3.1 NCBI

    NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)是一个隶属于美国国立卫生研究院(NIH)的国家医学图书馆(NLM)的机构。它成立于1988年,主要任务是建立和维护生物技术和生物医学领域的数据库,提供相关的信息资源和分析工具。以下是NCBI的一些主要功能和资源:

    数据库资源:NCBI开发和维护多个数据库,包括:

  • GenBank:一个公共的核酸序列数据库,包含所有公开可用的DNA序列的注释集合。

  • refseq: 经过筛选和注释的参考序列的数据库。RefSeq数据库的目的是提供一套全面、集成、非冗余、注释良好的序列,包括基因组DNA、转录本和蛋白质。RefSeq序列构成了医学、功能和多样性研究的基础,它们为基因组注释、基因鉴定和表征、突变和多态性分析、表达研究和比较分析提供了稳定的参考。

  • PubMed:一个生物医学和生命科学领域的文献检索系统,包含引用、摘要和杂志索引。

  • Protein:蛋白质数据库,包含来自多个来源的序列记录。

  • Nucleotide:核酸序列数据库。

  • Taxonomy:分类数据库,提供生物分类信息。

  • Structure:三维蛋白质结构数据库。

  • GEO (Gene Expression Omnibus):公共功能基因组学数据存储库。

  • ClinVar:收集关于基因变异与疾病之间关系的数据。

  • dbVar:人类基因组结构变异数据库。

  • 分析工具:NCBI提供了多种生物信息学分析工具,包括:

  • BLAST (Basic Local Alignment Search Tool):用于序列相似性搜索的工具。

  • ORFFinder:开放阅读框寻找器。

  • Sequin:用于序列数据提交的工具。

  • BankIt:基于Web的提交工具。

  • 3.2 UCSC Genome Browser

    由加州大学圣克鲁斯分校(UCSC)开发和维护的一个强大的基因组学工具,它提供了包括人类、小鼠和大鼠等多个物种的基因组草图

    3.3Ensembl

    2.Ensembl

    https://useast.ensembl.org/index.html

    3.UCSC

    https://genome.ucsc.edu/cgi-bin/hgGateway?hgsid=2309886318_vh61EH4ksGoPplhJec6e9nIeYMzf

    UCSC 本职的工作是做基因组浏览器的

    相关文章

    网友评论

        本文标题:如何获取参考基因组和基因注释?NCBI,genbank,refs

        本文链接:https://www.haomeiwen.com/subject/tqancjtx.html