美文网首页生信bioinformaticsresearch
从国家基因组科学数据中心(NGDC)下载原始测序数据

从国家基因组科学数据中心(NGDC)下载原始测序数据

作者: 小明的数据分析笔记本 | 来源:发表于2023-01-28 11:27 被阅读0次

    最近在看拟南芥基因组组装相关的论文,想把论文中提到的原始测序数据下载下来,论文中数据获取的部分写道

    The raw sequencing data for the PacBio HiFi reads,
    ONT long-reads, Illumina short reads, and Hi-C Illumina
    reads have been deposited in the Genome Sequence Archive
    [70] at the National Genomics Data Center, Beijing Institute
    of Genomics, Chinese Academy of Sciences / China National
    Center for Bioinformation (GSA: CRA004538), and are publicly
    accessible at https://ngdc.cncb.ac.cn/gsa.

    打开这个链接 https://ngdc.cncb.ac.cn/gsa 直接搜索对应的GSA编号

    image.png

    就可以找到对应的原始数据的详细信息,然后对应的找到下载链接就可以直接去下载了,个人感觉这个比NCBI好用多了,这里下载数据还专门有一个对应的工具叫做 EdgeTurbo 自己试了一下也非常好用

    官网上提供了一个详细的帮助文档,以下记录一下自己的安装和使用步骤

    帮助文档的链接

    https://ngdc.cncb.ac.cn/ettrans/files/edgeturbo%E5%AE%A2%E6%88%B7%E7%AB%AF%EF%BC%88linux%E7%89%88%EF%BC%89%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97.pdf

    https://ngdc.cncb.ac.cn/ettrans/?filePath=/gsa/CRA004538 或者在这个链接直接点击右上角的链接就可以

    下载软件

    wget https://ngdc.cncb.ac.cn/ettrans/download/edgeturbo-client.linux.latest.cncb.tar.gz
    

    解压缩

    tar -zxvf edgeturbo-client.linux.latest.cncb.tar.gz
    

    接下来帮助文档里还提到了添加到环境变量,这一步我没有做,就直接使用完整的路径调用吧

    下载数据命令

     ~/edgeturbo-client/edgeturbo download  /gsa/CRA007099/CRR511439/CRR511439_f1.fq.gz
    

    不指定存储位置会在home目录下生成一个download文件夹存储下载的数据

    如果要指定存储位置 在下载命令后用L链接路径

    ~/edgeturbo-client/edgeturbo download  /gsa/CRA007099/CRR511439/CRR511439_f1.fq.gz L/home/myan/my_data
    

    下载速度还是非常快的

    运行命令后会一直显示下载状态 按ctrl+c是退出这个显示状态,但是下载还在继续,如果要查看下载状态的话用命令

    ~/edgeturbo-client/edgeturbo ps
    

    如果要删除某个下载任务的话 ctrl+c是不起作用的,需要参考帮助文档里的操作

    wget + ftp链接 我这边的速度是1M左右,如果用这个工具速度可以达到20M左右

    欢迎大家关注我的公众号

    小明的数据分析笔记本

    小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

    image.png

    相关文章

      网友评论

        本文标题:从国家基因组科学数据中心(NGDC)下载原始测序数据

        本文链接:https://www.haomeiwen.com/subject/pqvyhdtx.html