1.什么是GEO数据库?
GEO数据库全称Gene ExpressionOmnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。
2. GEO提供的数据类型有那些呢?
GEO数据库的4个概念和4个数据存放类型: GSE数据编号(Series) GPL数据编号(GEO platforms) GSM数据编号(Samples) GDS数据编号(Datasets) 一篇文章可以有一个或者多个GSE(Series)数据集,一个GSE里面可以有一个或者多个GSM(Samples)样本,而每个数据集都有着自己对应的芯片平台,就是GPL(GEO platforms)。GSE编号一般为作者提交时生成的原始数据编号,后续NCBI中的工作人员会根据研究目的、样品类型等信息归纳整合为一个GDS(Datasets),整理后的数据还会有GEO profile数据,也就是基因在这次实验中的表达数据。GDS里面的数据往往对应相同的平台具有可比性,另外,不是所有的GSE数据都能被整理,所以,有的GSE数据里面没有GDS数据也是正常。
3. 如何根据GSE/SRA/SRR号进行原始的数据下载?
https://www.jianshu.com/p/03d7db3d5e82
4. 如何高速下载SRA文件?
参考网站:https://www.cnblogs.com/renping/p/7977472.html
方法主要有:
l 首选Aspera Connect软件,这是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,我们可以免费使用它下载高通量测序文件,体验飞一般的感觉,速度可飚至300-500M/s。下载完成后,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件。
l 其次,如果上述方法不奏效,优先使用sratoolkit中的prefetch命令。 l 最后,使用sratoolkit中的fastq-dump和sam-dump命令下载,如果fastq-dump不稳定,推荐大家尝试Biostar Handbook中的wonderdump脚本。
l (警告:不要用wget或curl去下载sra文件,这会导致下载的文件不完整!)
5. Aspera Connect命令行工具ascp的安装
安装
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
# (首先,进入Aspera Connect的下载页面,选择linux版本,复制下载地址)
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz #(解压缩)
bash aspera-connect-3.7.4.147727-linux-64.sh
# 查看是否有.aspera文件夹
cd ~ # 打开根目录
ls -a # 软件安装在根目录下的隐藏文件夹中,如果看到.aspera文件夹,代表安装成功 # 永久添加环境变量
echo 'exportPATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrcsource ~/.bashrc
# 查看帮助文档ascp –help
ascp使用举例:
ascp-v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra~/biostar/aspera/
报错:(ascp: Failed to open TCP connection forSSH, exiting)
查找原因:https://www.jianshu.com/p/9915fce02b10
Debug: 改用上面网址中的命令 time prefetch SRR6795677 ( 使用不了 nohup&,不知道为什么?)
下载完成后:ll -h 查看下载文件的大小(和NCBI文件大小信息进行比较),防止文件不完整。
此时下数据载到/public/home/thu/ncbi/public/sra文件夹下面。
网友评论