1.什么是GEO数据库？

GEO数据库全称Gene ExpressionOmnibus database，是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。

2. GEO提供的数据类型有那些呢？

GEO数据库的4个概念和4个数据存放类型： GSE数据编号(Series) GPL数据编号(GEO platforms) GSM数据编号(Samples) GDS数据编号(Datasets) 一篇文章可以有一个或者多个GSE(Series)数据集，一个GSE里面可以有一个或者多个GSM(Samples)样本，而每个数据集都有着自己对应的芯片平台，就是GPL(GEO platforms)。GSE编号一般为作者提交时生成的原始数据编号，后续NCBI中的工作人员会根据研究目的、样品类型等信息归纳整合为一个GDS(Datasets)，整理后的数据还会有GEO profile数据，也就是基因在这次实验中的表达数据。GDS里面的数据往往对应相同的平台具有可比性，另外，不是所有的GSE数据都能被整理，所以，有的GSE数据里面没有GDS数据也是正常。

3. 如何根据GSE/SRA/SRR号进行原始的数据下载？

https://www.jianshu.com/p/03d7db3d5e82

4. 如何高速下载SRA文件？

参考网站：https://www.cnblogs.com/renping/p/7977472.html

方法主要有：

l 首选Aspera Connect软件，这是IBM旗下的商业高速文件传输软件，与NCBI和EBI有协作合同，我们可以免费使用它下载高通量测序文件，体验飞一般的感觉，速度可飚至300-500M/s。下载完成后，本地用fastq-dump提取fastq文件，用sam-dump提取SAM文件。

l 其次，如果上述方法不奏效，优先使用sratoolkit中的prefetch命令。 l 最后，使用sratoolkit中的fastq-dump和sam-dump命令下载，如果fastq-dump不稳定，推荐大家尝试Biostar Handbook中的wonderdump脚本。

l （警告：不要用wget或curl去下载sra文件，这会导致下载的文件不完整！）

5. Aspera Connect命令行工具ascp的安装

安装

wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz

# (首先，进入Aspera Connect的下载页面，选择linux版本，复制下载地址)

tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz #(解压缩)

bash aspera-connect-3.7.4.147727-linux-64.sh

# 查看是否有.aspera文件夹

cd ~    # 打开根目录

ls -a    # 软件安装在根目录下的隐藏文件夹中,如果看到.aspera文件夹，代表安装成功 # 永久添加环境变量

echo 'exportPATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrcsource ~/.bashrc

# 查看帮助文档ascp –help

ascp使用举例：

ascp-v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra~/biostar/aspera/

报错：（ascp: Failed to open TCP connection forSSH, exiting）

查找原因：https://www.jianshu.com/p/9915fce02b10

Debug: 改用上面网址中的命令 time prefetch SRR6795677 ( 使用不了 nohup&，不知道为什么？)

下载完成后：ll -h 查看下载文件的大小（和NCBI文件大小信息进行比较），防止文件不完整。

此时下数据载到/public/home/thu/ncbi/public/sra文件夹下面。