美文网首页生物信息学习生物信息学生物信息学与算法
生信入门:如何将测序原始数据上传NCBI

生信入门:如何将测序原始数据上传NCBI

作者: 基因的生物信息学分析 | 来源:发表于2019-05-14 22:14 被阅读2次

    身边的小伙伴们经常咨询我如何上传原始数据到NCBI,于是就有了这篇文章。

    [图片上传中...(image-f46d13-1557147410582-3)]

    在多数国际期刊上发表学术论文的一个前提条件:提供所涉高通量测序数据的Accession Number。这就需要将测序数据raw reads(fastq文件)上传到某个公开的数据库,然后在文章中标明数据存储的位置和登录号。

    NCBI的SRA (Sequence Read Archive) 是最常用的存储高通量测序数据的数据库。

    [图片上传中...(image-109027-1557147410583-10)]

    大家可能觉得数据上传很困难,实际上并不复杂。除了先注册一个NCBI帐号(https://submit.ncbi.nlm.nih.gov/),只需以下三步:

    1. 申请BioProject号;

    2. 申请BioSample号;

    3. 创建SRA任务并上传数据。

    image

    申请BioProject号

    填写测序项目的研究目的,按照实际情况填写就可以。关于其中的项目类型(Project Type)的选择,一般高通量测序数据可选择“Raw sequence reads”。

    申请成功后,1小时内邮箱会收到以 PRJN 开头的BioProject号。注意BioProject号是以 PRJN 开头的,而不是SUB开头的号。这步小伙伴们一般都木有问题。

    申请BioSample号

    填写测序所用的样品的性质,包括样品名称、类型、来源等。通常来说,一个样品就是一个BioSample。

    注意:如果是多个样品请选择Batch/Multiple BioSamples这个选项,可以批量处理,填写一个表格上传就可以,不用一个样品一个样品的提交。

    image

    在填写Attributes这一步时,小伙伴们最容易出现类似如下的报错信息:

    image

    解决方法:确保organism那一列可以区分每个样品,也就是说每个样品的命名不要重复。

    正确上传表格后,点击最后的Submit。经过以上步骤,1-2天内邮箱会收到以 SAMN 开头的BioSample 号。

    创建SRA任务并上传数据

    上传数据:完成以上内容后,即可进行最关键的一步,也就是数据上传。

    image

    有三种方法可以上传:

    · Aspera浏览器插件

    · Aspera命令行和FTP上传

    · Amzon S3方式

    如果数据量比较小,直接在线上传就可以。

    数据量比较大的需要用Aspera命令行或FTP的方式上传。

    如果使用FTP提交(国内速度比较慢),可以点击FTP upload,页面就会发生变化,跳出每个用户专门的预上传地址(包括用户名、密码、指定的上传目录)

    image

    之后找一个像FileZilla这样的图形化的FTP工具上传即可,或者通过linux服务器下的lftp命令上传。

    lftp是一个功能强大的下载工具,它支持访问文件的协议: ftp, sftp,ftps, http, https等等。 它还有书签、排队、镜像、断点续传、多进程下载等功能。

    1 先登录上ftp:

    lftp subftp@ftp-private.ncbi.nlm.nih.gov:/uploads/… 回车

    回车后输入密码

    2 mput *fastq.gz

    批量上传当前目录下的所有以fastq.gz结尾的数据

    3 ctrl+z

    后台运行。如果文件没传完就断了怎么办,可以使用mget的-c参数断点续传

    4 mget -c *fastq.gz

    所有数据上传之后,你可以点击页面的New submission创建一个新的上传任务,然后就是一步一步的填写信息,将你预先上传的文件名字和你的样品名字进行对应。完成之后耐心等待反馈即可。

    需要注意的是,上传的过程中很多地方一旦点击submit就不可以修改。但是,可以写信给NCBI(genomeprj@ncbi.nlm.nih.gov )修改内容。如果顺利的话,不超过48小时,就可以得到确认,并拿到登录号。

    由于特朗普政府的原因已经造成多次NCBI停摆事件,让生物圈的小伙伴们惊慌不已。

    image

    咱们中国科学院北京基因组研究所生命与健康大数据中心 (BIG Data Center, http://bigd.big.ac.cn) 已开发建立了具有自主知识产权的基因组数据汇交、管理与共享系统 Genome Sequence Archive(GSA, http://gsa.big.ac.cn),其功能等同于美国NCBI的SRA,小伙伴们也可以关注一下。
    长按下方二维码,即可加入“基因的生物信息学分析”讨论群。

    image image

    生信入门:Fasta与Fastq格式文件详解

    相关文章

      网友评论

        本文标题:生信入门:如何将测序原始数据上传NCBI

        本文链接:https://www.haomeiwen.com/subject/vfkjoqtx.html