最近在看拟南芥基因组组装相关的论文,想把论文中提到的原始测序数据下载下来,论文中数据获取的部分写道
The raw sequencing data for the PacBio HiFi reads,
ONT long-reads, Illumina short reads, and Hi-C Illumina
reads have been deposited in the Genome Sequence Archive
[70] at the National Genomics Data Center, Beijing Institute
of Genomics, Chinese Academy of Sciences / China National
Center for Bioinformation (GSA: CRA004538), and are publicly
accessible at https://ngdc.cncb.ac.cn/gsa.
打开这个链接 https://ngdc.cncb.ac.cn/gsa 直接搜索对应的GSA编号
image.png就可以找到对应的原始数据的详细信息,然后对应的找到下载链接就可以直接去下载了,个人感觉这个比NCBI好用多了,这里下载数据还专门有一个对应的工具叫做 EdgeTurbo 自己试了一下也非常好用
官网上提供了一个详细的帮助文档,以下记录一下自己的安装和使用步骤
帮助文档的链接
https://ngdc.cncb.ac.cn/ettrans/?filePath=/gsa/CRA004538 或者在这个链接直接点击右上角的链接就可以
下载软件
wget https://ngdc.cncb.ac.cn/ettrans/download/edgeturbo-client.linux.latest.cncb.tar.gz
解压缩
tar -zxvf edgeturbo-client.linux.latest.cncb.tar.gz
接下来帮助文档里还提到了添加到环境变量,这一步我没有做,就直接使用完整的路径调用吧
下载数据命令
~/edgeturbo-client/edgeturbo download /gsa/CRA007099/CRR511439/CRR511439_f1.fq.gz
不指定存储位置会在home目录下生成一个download文件夹存储下载的数据
如果要指定存储位置 在下载命令后用L链接路径
~/edgeturbo-client/edgeturbo download /gsa/CRA007099/CRR511439/CRR511439_f1.fq.gz L/home/myan/my_data
下载速度还是非常快的
运行命令后会一直显示下载状态 按ctrl+c是退出这个显示状态,但是下载还在继续,如果要查看下载状态的话用命令
~/edgeturbo-client/edgeturbo ps
如果要删除某个下载任务的话 ctrl+c是不起作用的,需要参考帮助文档里的操作
wget + ftp链接 我这边的速度是1M左右,如果用这个工具速度可以达到20M左右
欢迎大家关注我的公众号
小明的数据分析笔记本
image.png小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!
网友评论