数据上传 | SRA数据上传操作指南

作者: ee00dc6faab7 | 来源:发表于2022-10-09 15:51 被阅读0次

在上一篇数据上传指南中，我们为大家介绍了GEO上传操作指南，今天小编就来介绍另一种重要的NCBI数据库SRA，它可用于存储测序的原始数据，实现资源共享。小编将SRA数据库的提交过程做一个简单概述，希望能为大家提供一点帮助。

一 SRA数据上传操作方法

1 NCBI 账号注册

数据上传前需要注册一个NCBI（https://www.ncbi.nlm.nih.gov/）账号，创建需要邮件激活。如果已经有账号，可以直接点击登录。在NCBI的首页点Submit，选择Sequence Read Archive (SRA)，点击GO,点击New submission。

2 Bioproject 创建

用于描述对样本进行测序的研究目的

点击

填写submitter详细信息：带“*”号为必填（姓名、邮箱、单位、地址、邮政编码），点击continue。

项目类型基因组/转录组，外泌体，宏基因组等

研究物种信息

信息释放时间节点，项目的主要概况，研究目的等

如果已经创建Biosample，则填写BioSample编号，否则创建BioSample

添加完Biosample 后进入Publication 界面，如果已经有发表的文章则填写文章的Pubmed ID/DOI 号

3 Biosample 创建

用于描述测序样本的具体信息

该页面详细介绍了BioSample的用途，注意事项以及视频教程

已经有该项目的bioproject 直接点击submit

填写基本信息

←点击新建

选择信息何时向公众公开

添加物种信息

选择物种类型

填写或下载填写样本相关表格

将填写好的样本上传

如果样本不多，推荐直接在网页填写表格

网页版表格：必填字段标有*星号。标有**，††或‡‡的字段至少填写其中一个。表格填写：不同的生物样品类型所需填写的表格内容不同。绿色字段为必填项，如缺少相关信息，如任何必填项没有资料，可以填写'not collected', 'not applicable' 或 'missing'；以人类样品为例，至少需要填写绿色单元格里的以下几项样品信息：(1) 样品名称（sample name）：无特定格式要求。(2) 物种（organism）：实验物种的拉丁名。(3) 个体（isolate）：为该实验样品个体取一个名字，无特定格式要求。(4) 年龄（age）：格式为【数字】+【时间单位】。(5) 单位（biomaterial_provider）：实验室或PI的名称和地址等信息，无特定格式要求。(6) 性别（Sex）：请从下拉菜单中选取符合条件的选项，而不要手动填写。(7) 组织（tissue）：样品来源的组织类型，无特定格式要求。蓝色字段为至少一个必填项，可参考绿色字段填写方法；黄色字段则为非必填项。注意，除样本名外，需要可以有信息将每个样本区分开，可以通过添加description信息，或者另外增加replication的信息来进行区分（注意，这里信息如果填写不符合规范，上传后会报错，只需根据提示的信息对表格内容进行相应修改后重新上传即可）

若多个样品填写为相同的信息（生物学重复），需要在最后一列添加“replicate”(replicate=replicate biological X(1、2、3）)

预览Biosample 信息

BioSample号

4 数据上传导航

点击

填写Bioproject和BioSample号即可，如果没有填写no即可，在数据上传的后面步骤中会让您补充Bioproject和BioSample信息。

项目基本描述信息

选择添加metadata 的方式，是在线填写或者下载表格填写后上传

我们建议您勾选“Upload a file using Excel or text format (tab-delimited)”并点击下图红框内的“Download Excel spreadsheet”超链接下载模板表格文件，以便在本地电脑上慢慢填写表格。

下载的“表格文件”内含三个工作表：Contact info and instructions、SRA_data、Library and Platform Terms。其中**个和第三个工作表是说明文档，实际填写 SRA 元数据的位置再第二个工作表“SRA_data”。完成填写后，回到网页点击“Choose file”按钮上传文件。SRA 官方建议您将第二个工作表另为 txt 格式再上传，然而实际使用中 Excel 格式的文件基本也能被成功读取识别。

表格中需要填写以下各纵列内容：

(1) 样品名称（sample name）：无特定格式要求，但需与第五步中上传表格使用过的样品名称保持一致。

(2) 文库ID（library ID）：无特定格式要求。

(3) 标题（title）：建议采用 {methodology} of {organism}: {sample info} 这样的格式，例如“RNA-Seq of mus musculus: adult female spleen”。

(4) 文库方法（library_stratagy)：请从下拉菜单中选取。点击标题超链接，您可以查看到各个选项的说明。对于转录组的测序类项目，请选择 RNA-seq。

(5) 文库来源（library_source）: 请从下拉菜单中选取。点击标题超链接，您可以查看到各个选项的说明。对于转录组的测序类项目，请选择 TRANSCRIPTOMIC。

(6) 文库筛选（library_selection）：请从下拉菜单中选取。点击标题超链接，您可以查看到各个选项的说明。

(7)文库端数（library_layout）：请从下拉菜单选取单端测序（single）或双端测序（paired）。

(8)测序平台（platform）：请从下拉菜单中选取。点击标题超链接，您可以查看到各个选项的说明。诺禾致源绝大多数的测序项目，都请选择 ILLUMINA。

(9)测序仪器（instrument_model）：请从下拉菜单中选取。点击标题超链接，您可以查看到各个选项的说明。例如 Illumina NovaSeq 6000。

(10)方法描述（design_description）：无特定格式要求。

(11)文件类型（filetype）：请从下拉菜单中选取。绝大多数的测序项目是提供 fastq 格式文件。(11)文件名（filename）：此行所描述的文件的名称（含文件后缀名）。如果存在多个文件，例如对于双端测序而言，请您将R1测序文件的文件名填写在“filename”一列（例如“Sample A1_1.fastq.gz”），然后再将R2测序文件的文件名填写在“filename2一列（例如“Sample A1_2fastq.gz”）。(12)参考基因组（assenbly 或 fasta_file）：此行上传的数据是 bam 格式等与基因组比对后生成的文件，请提供参考基因组的信息。如果是 NCBI 上的公开基因组，请在 assembly 一列填写基因组版本名称；如果使用的是自定义的本地基因组文件，请在 fasta_file 一列填写基因组文件的名称。如果此行数据描述的文件不涉及基因组比对（alignment）操作，这两列都可以留空。

选择原始数据上传的方式，数据较少就选网页上传，如果较多可以选择第二个,这里推荐Aspera方法上传数据

注：网页上传选择第一个选项webbroser uplode; 点击选择文件直接上传即可；样本较少可选择网页上传，注意：双端序列，需要将R1，R2两端序列均上传。

样本较多选择aspera软件上传，点击Aspera browser plugin upload，下载并安装windows版本的Aspera软件以及Key file（需要下载“key file”这个在后面写脚本的时候需要用到，如下图所示）；注意asper command linexiafang jiaoben xinx ,后面命令运行需要用到。下载安装见链接：Aspera：https://www.ibm.com/aspera/connect/，安装完成后，找到IBM Aspera Connect的图标，点击属性，打开文件所在位置：

把这些软件下载安装到windows下后，运行dos命令窗口（在键盘上同时点击“windows+R”，输入“cmd”点击确认）,输入软件所在绝对路径。

指令运行：首先进入到Aspera安装路径（即首先“cd”软件所在的绝对路径）；运行命令行：需要根据NCBI提供的脚本进行改写自己的脚本：ascp -i 第二步下载的key文件（注意带上文件的目录） -QT -l100m（上传最大速度，这里设置的为100M，如果觉得太快或太慢，可适当调整） -k1 -d 数据存放目录（目录一“”结尾） subasp@upload.ncbi.nlm.nih.gov:uploads/lily@outlook.com_jZdRWIub（邮箱_生成的随机码）注意：第二步中Aspera Command-Line upload有具体的命令行指令，以及需要上传的路径，只需要修改key文件路径和数据目录即可运行上传数据

数据上传完成后需要耐心等待一段时间，上传完所有的数据之后等上10-15min，刷新软件后可以出现下面的选项（注意最好选择网线上传，不要用无线）。

二 SRA数据上传常见问题

1 表格填写问题导致无法进行下一步

Biosample 创建中Attributes表格填写，需要注意除样本名外，需要可以有信息将每个样本区分开，可以通过添加description信息，或者另外增加replication的信息来进行区分。有生物学重复的需要在最后一列添加“replicate”(replicate=replicate biological X(1、2、3）)

2 运行命令错误

输入代码后没反应（不弹出上传的命令行）可以降低网速重新尝试，或者检查上传文件路径是否有空格，以及文件命名是否有空格，检查后更改路径重新上传。

3 输入代码后

（error:key passphrase）

退出软件，重新启动或重新下载

4 传输中断

（error: 0bit/s session stop）重新输入代码，并建议适当调低网速

5 Session Stop

(Error: Failed to open TCP connection for SSH)

重新下载软件重新登录再尝试

总结：目前最常见的问题是表格上传问题可以重点检查上传表格中填写是否完全一致，无法区分样本。及输入代码后不弹出上传的命令问题可以检查网速，检查上传文件路径是否有空格，以及文件命名是否有空格，检查后更改路径重新上传。

以上就是本次数据上传指南的主要内容，希望本次的分享可以给大家带来帮助。如果大家有什么问题，也可以在评论区留言。

数据上传 | SRA数据上传操作指南

一 SRA数据上传操作方法

二 SRA数据上传常见问题

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读