第一次使用GSA大约是2018年,那一次是往该数据库上传数据。
单细胞数据呈指数增长,对一个实验室也好,对一家科研单位也好,对一个国家也好,数据的管理显得日益重要。数据管理在技术上是平台的搭建,做好平台,大家可以在上传和下载或者分析数据。今天我们介绍一下如何从中国核酸数据库(GSA)下载单细胞转录组原始数据,并Run 起Cellragner(其他平台自然换成他们的定量软件)。
组学原始数据归档库(GSA)属于生物数据递交系统(BIG Submission, BIG Sub),后者是国家基因组科学数据中心生物数据统一汇交入口,为用户提供一站式数据递交服务。
数据库后台对科学家是十分友好的,有专属的用户QQ群,在使用过程中遇到问题可以随时在群里咨询(主要是汉语),既有工作人员,也有我这样的使用过的同学,为您排忧解惑。
首先,我们有一篇文章需要下载,一看Data availability
刚好在我们的GSA数据库中:
我们点击HRA的编号链接,后进入该数据的主页:
这样,再点击Request Data
,如果是第一次使用就需要注册啦。
基本上按照提示就可以完成注册啦。注意注册邮箱和个人主页需要是学术单位的哦,用户注册他们也是要审核的。满足条件的话,通过是很快的啦。
合法登陆之后,就可以开始申请数据了。我们可以在GSA搜索前面的编号,可以从文章链接转到Request页面,申请数据需要说明申请数据主要用于什么,需要的信息是:
每一项简明扼要写清楚即可。
在申请的结尾处有一个GSA-Human 数据访问协议
,这个还是建议认真看看的,主要是一些法律条文。 agree之后,申请工作就算完成啦,接下来是等待审核。
这个看文章作者和平台的审核速度啦,建议申请通过两天没动静可以和工作人员说一下,看看在哪里有卡点,及时通过邮件联系。
数据申请通过之后,申请的列表是这样的:
点击download
就可以看到ftp链接了,这时候可用Filezilla下载,如果数据较大,建议用wget下载,直接批量地下到集群:
wget -b -c --user=申请时候的用户名 --password=密码 --mirror ftp://链接
如果下载有困难除了在群里咨询,您还可以申请邮寄:
下载完之后,我们知道要RunCellranger 至少需要两个fq。当然,在看文章的时候,我们就已经知道这里的数据是用哪个平台做的了,需要注意的是,10X平台试剂软件版本更新较快,最好文章用哪个版本的数据我们就用哪个版本的,比如V2 和V3的试剂barcode长度不同了,有可能影响cell calling的结果。 所以我们需要看看自己下载的fq数据长得是什么样子的,特别是reads1。
下载完数据后,至少要:
- 检查文件完整性
- 下载文件的ID和临床信息匹配
- 检查fq的分布格式
- fq文件重命名成cellranger需要的格式
接下来可以Run 上Cellranger了。
cellranger count --id=run_count_1kpbmcs \
--fastqs=/pbmc_1k_v3_fastqs \
--sample=pbmc_1k_v3 \
--transcriptome=/refdata-cellranger-GRCh38-3.0.0
然后就是降维聚类必知必会balabala了。
其实有文档的啦:
- 人类遗传资源组学原始数据归档库数据申请及下载说明
- 组学原始数据归档库(GSA)使用说明
网友评论