测序数据的获取

作者: BioLearner | 来源:发表于2018-12-17 19:19 被阅读60次

测序数据的获取与格式转换
测序数据的获取
测序数据的获取、格式转换和质控
数据过滤
生信基础-测序原理
转录组质控
从国家基因组科学数据中心（NGDC）下载原始测序数据
从文章中获取测序数据
文件格式——FASTQ
禾谷镰刀菌转录组分析--准备数据

一、数据库简单介绍

1、SRA数据库：

NCBI的SRA数据库是美国国立卫生研究院（NIH）存储高通量测序数据的主要数据库，也是高通量测序数据存储的代表。SRA（Sequence ReadArchive）数据库是用于存储二代测序的原始数据，包括 454，Illumina，SOLiD，IonTorrent，Helicos 和 CompleteGenomics。除了原始序列数据外，SRA现在也存在raw reads在参考基因的比对信息。根据SRA数据产生的特点，将SRA数据分为四类：① Studies-- 研究课题；② Experiments-- 实验设计；③ Runs-- 测序结果集；④ Samples-- 样品信息。SRA中数据结构的层次关系为：Studies->Experiments->Samples->Runs. Studies是就实验目标而言的，一个study 可能包含多个Experiment。Experiments包含了Sample、DNA source、测序平台、数据处理等信息。一个Experiment可能包含一个或多个runs。Runs 表示测序仪运行所产生的reads。SRA数据库用不同的前缀加以区分：① ERP或SRP表示Studies；②SRS 表示 Samples；③SRX 表示 Experiments；④SRR 表示 Runs； SRA 短序列数据库：由 NCBI 负责维护；ENA 欧洲核酸数据库：由 EBI 负责维护。

SRA数据库FTP服务器： ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/

（参考 NCBI SRA数据库使用详解）

2、dbSNP数据库：

单核苷酸多态性数据库dbSNP(dbSNP, The Single Nucleotide Polymorphism Database）是由NCBI与人类基因组研究所（National Human Genome Research Institute）合作建立的，收录了SNP、短插入缺失多态性、微卫星标记和短重复序列等数据，以及其来源、检测和验证方法、基因型信息、上下游序、人群频率等信息。dbSNP接受明显中性的多态性，对应于已知表型的多态性和无变异的区域。它于1998年9月创建，用于补充NCBI收集的公众可获得的核酸和蛋白质序列GenBank。从构建131（2010年2月开始）开始，dbSNP已经收集了超过1.84亿份提交文件，代表了55种生物的超过6400万种不同变种，包括智人，小家鼠，水稻和许多其他物种。 NCBI将在2017年逐步停止对dbSNP和dbVar中的所有非人类生物的支持。

网址：https://www.ncbi.nlm.nih.gov/SNP/

dbSNP数据下载地址：ftp://ftp.ncbi.nih.gov/snp/

（参考dbSNP数据库以及生信人必学ftp站点之 dbsnp）

3、1000genomes数据库：

千人基因组计划的数据库，如何通过官网做的data portal来下载数据可参考：https://www.genome.gov/pages/research/der/ichg-1000genomestutorial/how_to_access_the_data.pdf

在千人基因组计划的ftp主站点里面可以下载所有数据：

ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

（参考：生信人必学ftp站点之1000genomes）

更多的数据库可见：生物信息学相关网站

二、数据下载软件

以SRA数据库数据为例

1、数据下载软件Aspera ：

Aspera 软件以最快速度传输全球数据，不受文件大小、传输距离或网络条件的影响。具有 fasp™ 传输专利技术，是一项突破性传输协议，充分利用现有的 WAN 基础设施和通用硬件，传输速度比 FTP 和 HTTP 快达数百倍。支持在云平台上或公共、私人或混合型云平台上进行部署，涵盖广泛的服务器、桌面和移动操作系统，具有端对端安全性、 100% 可靠性以及卓越的带宽控制能力。

Aspera connect在Ubuntu的下载和安装：

wget https://download.asperasoft.com/download/sw/conne ct/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar_1.gz

tar zvxf aspera-connect-3.6.2.117442-linux-64.tar_1.gz

sh aspera-connect-3.6.2.117442-linux-64.sh

echo "alias ascp=/home/noodles/.aspera/connect/bin/ascp" >> ~/.bashrc

source ~/.bashrc

ascp -h

参考：Ubuntu下Aspera connect的安装与使用

~/.bashrc: 该文件包含专用于你的bash shell的bash信息,当登录时以及每次打开新的shell时,该该文件被读取。将 ascp 添加至此处。参考：.bash_profile和.bashrc的什么区别及启动过程。每次修改.bashrc后，使用source ~/.bashrc 使修改立即生效。

根据数据的accession no. 逐步定位到sra文件，并得到ftp下载地址：

如SRR6208854的ftp下载地址为：ftp://ftp.ncbi.nlm.nih.gov/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra

则将其改为：

anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra

然后就可以在Ubuntu上使用aspera下载SRA文件，首先我们了解以下部分aspera参数：

USAGE：ascp [参数] 目标文件目的地址

-T 不进行加密。若不添加此参数，可能会下载不了。

-i string 输入私钥，安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥，使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。

-l string 设置最大传输速度，比如设置为 200M 则表示最大传输速度为 200m/s。若不设置该参数，则一般可达到10m/s的速度，而设置了，传输速度可以更高。

-k 1 支持断点续传

--host=string ftp的host名，NCBI的为ftp-private.ncbi.nlm.nih.gov；EBI的为fasp.sra.ebi.ac.uk。

--user=string 用户名，NCBI的为anonftp，EBI的为era-fasp。

--mode=string 选择模式，上传为 send，下载为 recv。

--file-list 批量下载SRA文件的路径

因此可通过下述命令来下载SRR6208854.sra文件：

ascp -T -i /home/noodles/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra ./

(若ascp未添加环境变量，则使用 ~/.aspera/connect/bin/ascp )

我们可以发现，NCBI-SRA数据库的sra文件前面的地址都是一样的/sra/sra-instant/reads/ByRun/sra/SRR/...，可以根据需要下载的sra文件来编写脚本进行批量下载sra文件，也可过把sra文件的id写到一个文档，使用ascp批量下载文档中所有的sra文件，举例如下：

首先vi创建一个文本文件，如SRR_Download_List，内容为:

/sra/sra-instant/reads/ByRun/sra/SRR/SRR623/SRR6232298/SRR6232298.sra

/sra/sra-instant/reads/ByRun/sra/SRR/SRR623/SRR6232299/SRR6232299.sra

然后运行：

~/.aspera/connect/bin/ascp -T -i /home/noodles/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list ./sra_list.txt ./

即可下载。（上述末尾的./表示下载到当前目录）

参考：从NCBI-SRA和EBI-ENA数据库下载数据

2、SRA数据下载工具 SRA toolkit

SRA toolkit由NCBI开发，用于下载处理SRA文件，含有各种数据格式转换的工具包，其中fastq-dump和prefetch经常使用：

fastq-dump：用于将SRA数据fastq格式

prefetch：允许使用命令行来下载SRA，dbGap和ADSP数据

SRA的安装方法（参考：SRAtoolkit安装步骤）：

Step 1：下载SRAtoolkit软件包这里用wget的-P参数，设置下载文件保存的路径是~/Biosofts/sratoolkit

wget -P ~/Biosofts/sratoolkit https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz

Step 2：解压压缩包用tar命令的-C参数，设置解压文件保存路径在~/Biosofts/sratoolkit

tar zvxf ~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64.tar.gz -C ~/Biosofts/sratoolkit

Step 3：测试安装是否成功

~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64/bin/fastq-dump -h

Step 4：将sratoolkit安装文件路径加入环境变量

echo 'export PATH=~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64/bin:$PATH' >> ~/.bashrc

source ~/.bashrc

Step 5：再次测试sratoolkit安装情况

fastq-dump

prefetch

当SRAtoolkit下载安装好后，即可使用prefetch来下载sra文件，以及使用fastq-dump将SRA数据fastq格式：

prefetch accession no. 即可下载，如下载 SRR6232298，则：

prefetch SRR6232298

软件自动建立~/ncbi/public/sra文件夹，sra文件

测序数据的获取与格式转换
目录测序数据的获取：SRA数据库，数据下载软件Aspera 格式转换：SRAToolkit 一、测序数据的获取 ...
测序数据的获取
一、数据库简单介绍 1、SRA数据库： NCBI的SRA数据库是美国国立卫生研究院（NIH）存储高通量测序数据的主...
测序数据的获取、格式转换和质控
1. 获取测序数据 Aspera 软件以最快速度传输全球数据,不受文件大小、传输距离或网络条件的影响。 ubunt...
数据过滤
二代测序数据过滤 1.基因测序技术 2.二代测序比较 3.测序通用流程 4.测序数据错误（针对每项过滤） 5.测序...
生信基础-测序原理
生物信息分析的前提是获得了测序数据，关于测序原始数据也涉及非常多知识及细节，如果明白了测序原理及测序数据产生的过程...
转录组质控
1.获取原始数据公司测序下机数据可能是rawdata，也可能是cleandata，无论是哪种最好自己都做一遍质控...
从国家基因组科学数据中心（NGDC）下载原始测序数据
最近在看拟南芥基因组组装相关的论文，想把论文中提到的原始测序数据下载下来，论文中数据获取的部分写道 The raw...
从文章中获取测序数据
作业要求本系列课程学习的文章是：AKAP95 regulates splicing through scaffo...
文件格式——FASTQ
FASTQ存的是产生自测序仪的原始测序数据，它由测序的图像数据转换过来，也是文本文件，文件大小依照不同的测序量（或...
禾谷镰刀菌转录组分析--准备数据
1、准备数据：测序数据和参考基因组测序数据：NCBI中SRA数据库，Accession: PRJNA522013 ...