美文网首页
上传高通量数据到GEO/NCBI数据库

上传高通量数据到GEO/NCBI数据库

作者: 生信摆渡 | 来源:发表于2022-05-24 17:29 被阅读0次

上传地址:https://www.ncbi.nlm.nih.gov/geo/info/submissionftp.html

一、登录

注册/登录:


第三方账户登录,似乎都需要科学上网?


选择我熟悉的谷歌账户,即可登录。

进入自己主页,编辑和人信息,这些信息将在GSE dataset 界面展示。

点击Preview预览查看效果:

点击New submition 开始数据提交。

二、准备数据

根据数据类型点击对应的链接,这里我们上传高通量数据:

点进去的页面内容需要你仔细阅读:https://www.ncbi.nlm.nih.gov/geo/info/seq.html

需要准备的文件包括三部分:

1. metadata spreadsheet

即元数据,注释数据,模板从 seq_template 中下载

可根据文件内的两个示例表格进行填写:


需要填写的地方将鼠标放在表头上会有提示。

这里又包括几个需要填写的部分:

a. SERIES

该批数据的大体描述,其中summary部分填的内容较多,基本上是paper的摘要内容。

b. SAMPLES

所有样本的注释信息,包括样本名(sample1, sample2 ...)、ID、组织类型、细胞类型、物种类型、分组信息、临床信息、测序的分子、原始数据文件名、处理后的文件名等等。

c. DATA PROCESSING PIPELINE

提供原始数据的每一处理步骤的软件、版本及参数、使用的参考基因组、处理后的文件的格式和内容。

d. PROCESSED DATA FILES

处理后的文件名、文件类型及md5码

e. RAW FILES

每个原始数据的注释数据,文件名、数据类型、md5码、测序平台、单双端

f. PAIRED-END EXPERIMENTS

填写配对的数据,当一个样本产生两个(双端数据)及更多( SOLiD)的数据时需要填写。

2. 原始数据

所有原始数据放到统一文件夹:raw_data_files

3. 处理后的数据

所有原始数据放到统一文件夹:processed_data_files

4. 补充文件

SERIES 中填写的 supplementary file,比如所有样本的表达谱: Normalized_log2TPM_matrix.txt。

整理好的文件结构大概是这样的:


而上一级文件夹为:geo_submission_RNAseq,即geo_submission+数据类型。

三、数据传输

还是这个页面往下滑:https://www.ncbi.nlm.nih.gov/geo/info/seq.html

点进去之后仔细阅读所有内容,会告知服务器地址、个人文件存储地址、登录名、及密码。

最下面有上传帮助:


以Linux系统为例:

一开始我选用的是sftp进行上传,上传速度可达2~3 M/s, 但这个命令只能在命令行界面手动操作,而且总是与服务器断开,根本用不了!折腾了我一段时间(手动记录断掉的位置,手动重新上传。。。。)

后来选用了lftp进行上传,最大的优点是可以将传输命令写成一行命令,可以实现批量上传。

但是网速却只有200来k/s。如果一次性传输整个文件夹,500G需要传输30天!

大文件主要就是原始fastq文件了,因此可以将每一个fastq文件都生成一个传输命令,然后递交服务器,就不用担心会断网了。

这样实现了100多个fastq文件同时上传了,弥补了网速慢的问题!

一个2G的文件也只需要3个多小时就能上传,并行多少就取决于服务器支持同时运行多少个任务了。

用这种方法使得之前大半月没有上传好的数据一夜之内就上传好了,办法总比困难多哈哈~

单个文件上传的代码:

lftp -c 'open ftp://geoftp:rebUzyi1@ftp-private.ncbi.nlm.nih.gov; cd uploads/jiahaowongg@gmail.com_ERs7cgUA; put /sibcb2/bioinformatics2/wangjiahao/GDM/RNAseq/submit_data/geo_submission_RNAseq/raw_data_files/17A020374_S21_L004_R2.fq.gz .; quit'

信息替换一下就好了,文件路径使用绝对路径

四、提交审核

还是刚才那个页面,点击“Notify GEO”,


填写数据信息,包括服务器文件地址和开放日期,及其他的确认信息。

点击Submit就完成了提交,之后会进入提交信息界面,在这里可以修改你想要收到邮件的邮箱,默认使用的注册使用的邮箱,比如我就是谷歌邮箱,我不常用,因此换成了自己的个人常用邮箱。

很快GEO团队会自动发送提交提醒的邮件:


告知五个工作日之内会处理,但我晚上提交的,一两个小时之后就返回了,刚好赶上他们的上班时间,也可见效率之高。

如果有文件没有上传完整或者缺少其他需要的信息,GEO团队会邮件告知你,如果没有问题则会返回GSE号。

对于未开放的数据集,可以点击“Reviewer access”,即可获取私人访问码,供审稿人和合作者查看。


收到GSE号的那一刻:芜湖~ 成功了~ 我也是有GSE号的人了!

相关文章

网友评论

      本文标题:上传高通量数据到GEO/NCBI数据库

      本文链接:https://www.haomeiwen.com/subject/pwijprtx.html