生信入门：如何将测序原始数据上传NCBI

作者: 基因的生物信息学分析 | 来源:发表于2019-05-14 22:14 被阅读2次

生信入门：如何将测序原始数据上传NCBI
生信入门：如何将测序原始数据上传NCBI
NCBI|宏基因组原始数据上传
如何向Sequence Read Archive (SRA) 提
细菌的功能基因如何上传NCBI获取GenBank号？
NCBI upload raw data
NCBI|转录组原始数据上传
一步步教你NCBI_SRA上传测序数据
NCBI上传原始数据-ASPERA
NCBI上传测序数据

身边的小伙伴们经常咨询我如何上传原始数据到NCBI，于是就有了这篇文章。

[图片上传中...(image-f46d13-1557147410582-3)]

在多数国际期刊上发表学术论文的一个前提条件：提供所涉高通量测序数据的Accession Number。这就需要将测序数据raw reads（fastq文件）上传到某个公开的数据库，然后在文章中标明数据存储的位置和登录号。

NCBI的SRA (Sequence Read Archive) 是最常用的存储高通量测序数据的数据库。

[图片上传中...(image-109027-1557147410583-10)]

大家可能觉得数据上传很困难，实际上并不复杂。除了先注册一个NCBI帐号（https://submit.ncbi.nlm.nih.gov/），只需以下三步：

1. 申请BioProject号;

2. 申请BioSample号；

3. 创建SRA任务并上传数据。

image

申请BioProject号

填写测序项目的研究目的，按照实际情况填写就可以。关于其中的项目类型（Project Type）的选择，一般高通量测序数据可选择“Raw sequence reads”。

申请成功后，1小时内邮箱会收到以 PRJN 开头的BioProject号。注意BioProject号是以 PRJN 开头的，而不是SUB开头的号。这步小伙伴们一般都木有问题。

申请BioSample号

填写测序所用的样品的性质，包括样品名称、类型、来源等。通常来说，一个样品就是一个BioSample。

注意：如果是多个样品请选择Batch/Multiple BioSamples这个选项，可以批量处理，填写一个表格上传就可以，不用一个样品一个样品的提交。

image

在填写Attributes这一步时，小伙伴们最容易出现类似如下的报错信息：

image

解决方法：确保organism那一列可以区分每个样品，也就是说每个样品的命名不要重复。

正确上传表格后，点击最后的Submit。经过以上步骤，1-2天内邮箱会收到以 SAMN 开头的BioSample 号。

创建SRA任务并上传数据

上传数据：完成以上内容后，即可进行最关键的一步，也就是数据上传。

image

有三种方法可以上传：

· Aspera浏览器插件

· Aspera命令行和FTP上传

· Amzon S3方式

如果数据量比较小，直接在线上传就可以。

数据量比较大的需要用Aspera命令行或FTP的方式上传。

如果使用FTP提交（国内速度比较慢），可以点击FTP upload，页面就会发生变化，跳出每个用户专门的预上传地址（包括用户名、密码、指定的上传目录）

image

之后找一个像FileZilla这样的图形化的FTP工具上传即可，或者通过linux服务器下的lftp命令上传。

lftp是一个功能强大的下载工具，它支持访问文件的协议: ftp, sftp,ftps, http, https等等。它还有书签、排队、镜像、断点续传、多进程下载等功能。

1 先登录上ftp：

lftp subftp@ftp-private.ncbi.nlm.nih.gov:/uploads/… 回车

回车后输入密码

2 mput *fastq.gz

批量上传当前目录下的所有以fastq.gz结尾的数据

3 ctrl+z

后台运行。如果文件没传完就断了怎么办，可以使用mget的-c参数断点续传

4 mget -c *fastq.gz

所有数据上传之后，你可以点击页面的New submission创建一个新的上传任务，然后就是一步一步的填写信息，将你预先上传的文件名字和你的样品名字进行对应。完成之后耐心等待反馈即可。

需要注意的是，上传的过程中很多地方一旦点击submit就不可以修改。但是，可以写信给NCBI（genomeprj@ncbi.nlm.nih.gov ）修改内容。如果顺利的话，不超过48小时，就可以得到确认，并拿到登录号。

由于特朗普政府的原因已经造成多次NCBI停摆事件，让生物圈的小伙伴们惊慌不已。

image

咱们中国科学院北京基因组研究所生命与健康大数据中心（BIG Data Center, http://bigd.big.ac.cn）已开发建立了具有自主知识产权的基因组数据汇交、管理与共享系统 Genome Sequence Archive（GSA, http://gsa.big.ac.cn），其功能等同于美国NCBI的SRA，小伙伴们也可以关注一下。
长按下方二维码，即可加入“基因的生物信息学分析”讨论群。

image

生信入门：Fasta与Fastq格式文件详解

生信入门：如何将测序原始数据上传NCBI
在多数国际期刊上发表学术论文的一个前提条件：提供所涉高通量测序数据的Accession Number。这就需要将测...
生信入门：如何将测序原始数据上传NCBI
身边的小伙伴们经常咨询我如何上传原始数据到NCBI，于是就有了这篇文章。 [图片上传中...(image-f46d...
NCBI|宏基因组原始数据上传
小编最近学习了关于NCBI数据上传的操作，今天给大家演示宏基因组原始数据上传NCBI的操作，宏基因组原始数据上传N...
如何向Sequence Read Archive (SRA) 提
基本简介原始数据（Raw data)指测序下机后未经处理的全部原始数据文件，SRA是NCBI中收录原始数据的主要...
细菌的功能基因如何上传NCBI获取GenBank号？
此前，我们已将讲解过如何将测序得到并拼接好的细菌16S rDNA序列上传至NCBI获取GenBank号： 16S序...
NCBI upload raw data
文章在发表前一般都要上传NCBI，高通量的原始数据通通都要上传，网站：https://www.ncbi.nlm.n...
NCBI|转录组原始数据上传
数据上传NCBI系列又来啦！今天小编来为大家演示的是转录组原始数据上传NCBI哦~ 01.申请Biosample编...
一步步教你NCBI_SRA上传测序数据
测序文章在审稿期间，审稿人往往需要作者上传原始数据至NCBI。而搜索引擎搜到的参考资料甚少，不得不边摸索边总结，几...
NCBI上传原始数据-ASPERA
转自基迪奥，个人使用，如有侵权，私信必删，禁止转载
NCBI上传测序数据
越来越多的小伙伴即将要投出人生中的第一篇paper了，万事具备却被SCI的期刊要求公开自己的测试原始数...