美文网首页NGS测序笔记
RNAseq004 转录组入门(4):参考基因组下载

RNAseq004 转录组入门(4):参考基因组下载

作者: caoqiansheng | 来源:发表于2020-08-30 12:07 被阅读0次

    1 参考基因组

    以下内容主要参考jimmy大佬的生信技能树及生信菜鸟团公众号

    1.1 【直播】我的基因组(五):测试数据及参考基因组的准备

    这个对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。

    1.2 基因组各种版本对应关系

    首先是NCBI对应UCSC,对应ENSEMBL数据库:
    GRCh36 (hg18): ENSEMBL release_52.
    GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
    GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
    可以看到ENSEMBL的版本特别复杂!!!很容易搞混!
    但是UCSC的版本就简单了,就hg18,19,38, 常用的是hg19,但是我推荐大家都转为hg38
    看起来NCBI也是很简单,就GRCh36,37,38,但是里面水也很深!
    Feb 13 2014 00:00 Directory April_14_2003
    Apr 06 2006 00:00 Directory BUILD.33
    Apr 06 2006 00:00 Directory BUILD.34.1
    Apr 06 2006 00:00 Directory BUILD.34.2
    Apr 06 2006 00:00 Directory BUILD.34.3
    Apr 06 2006 00:00 Directory BUILD.35.1
    Aug 03 2009 00:00 Directory BUILD.36.1
    Aug 03 2009 00:00 Directory BUILD.36.2
    Sep 04 2012 00:00 Directory BUILD.36.3
    Jun 30 2011 00:00 Directory BUILD.37.1
    Sep 07 2011 00:00 Directory BUILD.37.2
    Dec 12 2012 00:00 Directory BUILD.37.3
    可以看到,有37.1, 37.2, 37.3 等等,不过这种版本一般指的是注释在更新,基因组序列一般不会更新!!!
    反正你记住hg19基因组大小是3G,压缩后八九百兆即可!!!

    2 在UCSC上下载人类hg19参考基因组

    2.1 chromFa.tar.gz

    chromFa.tar.gz - The assembly sequence in one file per chromosome.Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are shown in lower case; non-repeating sequence is shown in upper case.
    每个染色体一个文件中的装配顺序。RepeatMasker和Tandem Repeats Finder的重复(周期为12或更短)以小写形式显示; 大写显示非重复序列。

    2.2 UCSC参考基因组下载链接

    hg19:http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
    hg38:http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.chromFa.tar.gz

    迅雷很好用,别再傻乎乎的wget了,将上述链接复制放入迅雷,分分钟搞定

    cd /mnt/d/Data
    mkdir reference && cd reference
    mkdir -p genome/hg19 && cd genome/hg19
    #  下载速度简直就是龟速,需要十几天,我是将网址复制到迅雷,10分钟搞定
    nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
    # 解压缩,并将其合并为完整的基因组序列
    tar -zxvf chromFa.tar.gz
    cat *.fa > hg19.fa
    # 删除单独的基因组序列
    rm chr*
    

    3 注释下载

    GTF文件的全称是gene transfer format,主要是对染色体上的基因进行标注,而GTF文件的主要功能,就是指出我们所谓的基因在染色体上的位置(coordinate),并且还标注了这一段区间的其他信息

    • GFF(general feature format):用于基因组注释。

    seqid :通常格式染色体ID或是contig ID。
    source:注释的来源,一般指明产生此gff3文件的软件或来源数据库。如果未知,.代表空。
    type: 一般使用gene,repeat_region,exon,CDS,或SO对应编号等。
    start:起始位置,从1开始计数(需要注意:bed文件从0开始计数)。
    end:终止位置。
    score:得分,注释信息可能性说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值。.代表空
    strand:表示正链,-表示负链,.表示不需要指定正负链,? 表示未知.
    phase :仅对编码蛋白质的CDS有效,本列指定下一个密码子开始的位置。可以是0、1或2,表示到达下一个密码子需要跳过碱基个数。
    attributes:包含额外属性的列表,格式为tag=value,不同属性之间以;相隔。

    • GTF(gene transfer format):用于对基因的注释。

    seqname: 通常格式染色体ID或是contig ID。
    source:注释的来源。,一般指明产生此gff3文件的软件或来源数据库。如果未知,.代表空。
    start:起始位置,从1开始计数。
    end:终止位置。
    feature :表示基因结构。CDS,start_codon,stop_codon是一定要含有的类型。
    score :得分,注释信息可能性说明,可用.代替空。
    strand:链的正向与负向,分别用+和-表示。
    frame:密码子偏移,可以是0、1或2。
    attributes:必须要有以下两个值:
    gene_id value: 表示转录本在基因组上的基因座的唯一的ID。gene_id与value值用空格分开,如果值为空,则表示没有对应的基因。
    transcript_id value: 预测的转录本的唯一ID。transcript_id与value值用空格分开,空表示没有转录本。

    基因组各种版本对应关系

    下载GTF注释文件,基因组版本尤为重要

    • NCBI
    # hg38/GRCh38
    wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.109/GFF/ref_GRCh38.p12_top_level.gff3.gz
    # hg19/GRCh37
    wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/GFF/ref_GRCh37.p5_top_level.gff3.gz
    
    # hg38/GRCh38
    wget ftp://ftp.ensembl.org/pub/release-90/gtf/homo_sapiens/Homo_sapiens.GRCh38.90.chr.gtf.gz 
    # hg19/GRCh37
    wget ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz 
    

    相关文章

      网友评论

        本文标题:RNAseq004 转录组入门(4):参考基因组下载

        本文链接:https://www.haomeiwen.com/subject/wxzssktx.html