美文网首页单细胞测序
从中国核酸数据库GSA下载单细胞数据

从中国核酸数据库GSA下载单细胞数据

作者: 周运来就是我 | 来源:发表于2020-11-25 21:05 被阅读0次

    第一次使用GSA大约是2018年,那一次是往该数据库上传数据。

    单细胞数据呈指数增长,对一个实验室也好,对一家科研单位也好,对一个国家也好,数据的管理显得日益重要。数据管理在技术上是平台的搭建,做好平台,大家可以在上传和下载或者分析数据。今天我们介绍一下如何从中国核酸数据库(GSA)下载单细胞转录组原始数据,并Run 起Cellragner(其他平台自然换成他们的定量软件)。

    组学原始数据归档库(GSA)属于生物数据递交系统(BIG Submission, BIG Sub),后者是国家基因组科学数据中心生物数据统一汇交入口,为用户提供一站式数据递交服务。

    https://bigd.big.ac.cn/gsub/

    数据库后台对科学家是十分友好的,有专属的用户QQ群,在使用过程中遇到问题可以随时在群里咨询(主要是汉语),既有工作人员,也有我这样的使用过的同学,为您排忧解惑。

    首先,我们有一篇文章需要下载,一看Data availability刚好在我们的GSA数据库中:

    我们点击HRA的编号链接,后进入该数据的主页:

    这样,再点击Request Data,如果是第一次使用就需要注册啦。

    基本上按照提示就可以完成注册啦。注意注册邮箱和个人主页需要是学术单位的哦,用户注册他们也是要审核的。满足条件的话,通过是很快的啦。

    合法登陆之后,就可以开始申请数据了。我们可以在GSA搜索前面的编号,可以从文章链接转到Request页面,申请数据需要说明申请数据主要用于什么,需要的信息是:


    每一项简明扼要写清楚即可。

    在申请的结尾处有一个GSA-Human 数据访问协议,这个还是建议认真看看的,主要是一些法律条文。 agree之后,申请工作就算完成啦,接下来是等待审核。

    这个看文章作者和平台的审核速度啦,建议申请通过两天没动静可以和工作人员说一下,看看在哪里有卡点,及时通过邮件联系。

    数据申请通过之后,申请的列表是这样的:

    点击download就可以看到ftp链接了,这时候可用Filezilla下载,如果数据较大,建议用wget下载,直接批量地下到集群:

    wget   -b -c  --user=申请时候的用户名  --password=密码  --mirror ftp://链接
    
    

    如果下载有困难除了在群里咨询,您还可以申请邮寄:

    下载完之后,我们知道要RunCellranger 至少需要两个fq。当然,在看文章的时候,我们就已经知道这里的数据是用哪个平台做的了,需要注意的是,10X平台试剂软件版本更新较快,最好文章用哪个版本的数据我们就用哪个版本的,比如V2 和V3的试剂barcode长度不同了,有可能影响cell calling的结果。 所以我们需要看看自己下载的fq数据长得是什么样子的,特别是reads1。

    下载完数据后,至少要:

    • 检查文件完整性
    • 下载文件的ID和临床信息匹配
    • 检查fq的分布格式
    • fq文件重命名成cellranger需要的格式

    接下来可以Run 上Cellranger了。

    cellranger count --id=run_count_1kpbmcs \
    --fastqs=/pbmc_1k_v3_fastqs \
    --sample=pbmc_1k_v3 \
    --transcriptome=/refdata-cellranger-GRCh38-3.0.0
    

    然后就是降维聚类必知必会balabala了。

    其实有文档的啦:

    • 人类遗传资源组学原始数据归档库数据申请及下载说明
    • 组学原始数据归档库(GSA)使用说明
    GSA数据信息结构图解(推荐)

    中国核酸数据库GSA数据提交指南

    相关文章

      网友评论

        本文标题:从中国核酸数据库GSA下载单细胞数据

        本文链接:https://www.haomeiwen.com/subject/vuggiktx.html