美文网首页基因组学
当小白遇到:参考基因组和基因组注释

当小白遇到:参考基因组和基因组注释

作者: 笺牒九州的怪咖 | 来源:发表于2022-01-20 21:10 被阅读0次

1、啥是参考基因组和参考基因注释?

俗话说“大道至简”,咱生物界表示:这我熟呀!君不见,我只用ATCG 四个碱基就能上天入地,外加海底两万里。嗯,没毛病!!
自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因组序列信息,并写在 Fasta 格式的文本文件“天书”中,这本天书就叫做参考基因组
但是,直接拿天书来看是一脸懵逼的,于是大家开始利用实验技术手段开始着手解密这本天书,随后大量的基因以及非编码序列被人们详细的标记在参考基因组对应的位置。同时对该位置加入大量的注释细节,最终将这些信息写在 BED,GTF,GFF 格式的基因组注释文件 。
随着时间推移和技术的发展,已经构建好的基因组和基因组注释信息会出现不同程度的增加、删减等修改,从而有了不同版本。

2、参考基因组版本命名

在讲参考基因组之前,需要提到一个组织参考基因组联盟(Genome Reference Consortium),它是由 NCBI,EBI,桑格研究所等机构组成。GRC 利用最佳的技术装配,纠正,增加基因组序列,以此作为在生信分析领域作为参考的基因组。目前,该机构构建了人,小鼠,大鼠,斑马鱼,鸡的参考基因组。

2.1 常用人参考基因组对应表

发布时间 2013 2009 2006
GRC官方名 GRCh38 GRCh37 GRCh36
UCSC hg38 hg19 hg18
Ensemble GRCh38 GRCh37 GRCh36
GENCODE 38 19 3c
NCBI GRCh38 GRCh37 GRCh36
GenBank GCA_000001405
RefSeq GCA_000001405

2.2 常用小鼠参考基因组对应表

发布时间 2020 2011 2007
GRC官方名 GRCm39 GRCm38
UCSC m39 mm10 mm9
Ensemble GRCm39 GRCm38
GENCODE M27 M25 M1
NCBI GRCm39 GRCm38 NCBIM37

3 如何下载基因组和基因组注释?

3.1、NCBI

这里提供两种下载方式,一种为网页界面下载,另一种为FTP下载。

a) 可视化下载

  • 进入网址

https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/

  • 搜索物种


    图1 NCBI人基因组信息搜索
  • 下载界面


    图2 NCBI人基因下载页面 (下载时注意对应版本)

b) FTP下载

注:Chrome 浏览器在18版本后由于安全原因已经不支持 ftp 协议,改用 https 协议,可以看到链接已经与之前的不同。

这里以下载人的参考基因组 GRCh38 为例:

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/reference/GCF_000001405.39_GRCh38.p13

人类基因组注释文件:

GTF 格式:https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gtf.gz

GFF 格式:

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gff.gz

如果以这种方式下载,其实已经可以路径中大概看出相关物种的下载地址,可以自行查询及下载其他物种。

2、Ensemble

a) 可视化下载

图3 Ensemble人基因组搜索 图4 Ensemble人基因组下载

b) FTP下载

同样以下载人参考基因组 GRCh38 为例:

http://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz

GTF 文件:http://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz

GTT 文件:http://ftp.ensembl.org/pub/cur

3、GENCODE

给做医学相关研究的小伙伴们推荐,GENCODE的物种只涉及人类和小鼠,但这里具有最新最全的基因组和其注释信息。

  • 网址:https://www.gencodegenes.org/
  • 点击人类的最新版


    图5 GENCOND人基因组
  • 点击下载基因组注释文件


    图6 GENCOND人基因组下载

4、UCSC

相对其他下载方式,UCSC 本职的工作是做基因组浏览器的,因此也可以从下图看到,在这里可以根据自己定义来下载相对于的基因组区域,比如 prime,exon,gene,transcript等等。

以上详细描述了4个数据库如何下载基因组和基因组注释问价,其他物种基本也是这种套路了。希望小伙伴们再也不会迷路啦。。。。

---------------------------------------------------------------------------------------------------------------------------------------------------I`m a line ! Thanks !-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
参考:
https://zhuanlan.zhihu.com/p/383397412

相关文章

网友评论

    本文标题:当小白遇到:参考基因组和基因组注释

    本文链接:https://www.haomeiwen.com/subject/eyfshrtx.html