美文网首页生物信息学
植物基因组学-小麦基因组数据介绍以及获取

植物基因组学-小麦基因组数据介绍以及获取

作者: blue_unique | 来源:发表于2020-03-18 22:08 被阅读0次

        小麦是世界上最重要的粮食作物之一,随着新一代测序技术的发展,小麦的基因组学发展迅速。本文主要介绍小麦常用的基因组数据库以及基因组数据库下载,方便为从事小麦研究的同学提供一些帮助。

    1. 常用的小麦生物学数据库网址

    Ensembl Plants,该网址可以说涵盖了大部分植物的生物学数据库,这也包括小麦及其近缘种的数据。以该网址为例,简单介绍一下该数据库以及下载方式。

    1. download选项 2.选择ftp 3. 重点关注fasta,gff3和gtf文件,fasta文件是存储基因组文件的,gtf和gff3是基因组注释文件

    GFF全称为general feature format,这种格式主要是用来注释基因组,GTF全称为gene transfer format,主要是用来对基因进行注释。关于这两个文件的比较我们会后续分析,主要关注fasta 文件。

    可以看到小麦属的几个物种,包括六倍体小麦,四倍体的野生二粒小麦,四倍体的硬粒小麦,以及A基因组供体种乌拉尔图小麦

    以六倍体小麦为例,看看基因组是什么。

    可以看到有cds、dna、pep等,非常全面,以常用的DNA为例,继续查看 非常重要的文件,readme,这是做数据分析必看的 可以看到,基因组有普通的dna.chromosome,有sm.chromosome,有rm.chromosome等类型,这是需要我们注意的,选择什么类型的数据关乎到我们的实验成败。所有的官方解释都在readme文件。

    一般使用如下命令进行下载,有的情况发现直接下载到本地电脑,再上传服务器,速度也很快,希望各位同学在使用的时候,按照情况下载,参考基因组很大,要有耐心。

    $ wget ftp://ftp.ensemblgenomes.org/pub/plants/release-46/fasta/triticum_aestivum/dna/Triticum_aestivum.IWGSC.dna.toplevel.fa.gz

    这就是下载好的数据,非常常见的fasta格式,以>开头,关键信息,1A,以及长度chr1Ade:594102056。

    以上就是以ensemble plant数据为例,下载六倍体小麦的参考基因组数据,我们会在后续的文章中,介绍一下使用参考基因组进行重测序数据、转录组数据分析等内容。

    相关文章

      网友评论

        本文标题:植物基因组学-小麦基因组数据介绍以及获取

        本文链接:https://www.haomeiwen.com/subject/guchyhtx.html