测序数据的获取

作者: BioLearner | 来源:发表于2018-12-17 19:19 被阅读60次

一、数据库简单介绍

1、SRA数据库:

NCBI的SRA数据库是美国国立卫生研究院(NIH)存储高通量测序数据的主要数据库,也是高通量测序数据存储的代表。SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。 根据SRA数据产生的特点,将SRA数据分为四类:① Studies-- 研究课题;② Experiments-- 实验设计;③ Runs-- 测序结果集;④ Samples-- 样品信息。SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.  Studies是就实验目标而言的,一个study 可能包含多个Experiment。Experiments包含了Sample、DNA source、测序平台、数据处理等信息。一个Experiment可能包含一个或多个runs。Runs 表示测序仪运行所产生的reads。SRA数据库用不同的前缀加以区分:① ERP或SRP表示Studies;②SRS 表示 Samples;③SRX 表示 Experiments;④SRR 表示 Runs; SRA 短序列数据库:由 NCBI 负责维护;ENA 欧洲核酸数据库:由 EBI 负 责维护。

SRA数据库FTP服务器: ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/

(参考 NCBI SRA数据库使用详解

2、dbSNP数据库:

单核苷酸多态性数据库dbSNP(dbSNP, The Single Nucleotide Polymorphism Database)是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,收录了SNP、短插入缺失多态性、微卫星标记和短重复序列等数据,以及其来源、检测和验证方法、基因型信息、上下游序、人群频率等信息。dbSNP接受明显中性的多态性,对应于已知表型的多态性和无变异的区域。它于1998年9月创建,用于补充NCBI收集的公众可获得的核酸和蛋白质序列GenBank。从构建131(2010年2月开始)开始,dbSNP已经收集了超过1.84亿份提交文件,代表了55种生物的超过6400万种不同变种,包括智人,小家鼠,水稻和许多其他物种。 NCBI将在2017年逐步停止对dbSNP和dbVar中的所有非人类生物的支持。

网址:https://www.ncbi.nlm.nih.gov/SNP/

dbSNP数据下载地址:ftp://ftp.ncbi.nih.gov/snp/

(参考dbSNP数据库 以及 生信人必学ftp站点之 dbsnp

3、1000genomes数据库:

千人基因组计划的数据库,如何通过官网做的data portal来下载数据可参考:https://www.genome.gov/pages/research/der/ichg-1000genomestutorial/how_to_access_the_data.pdf

在千人基因组计划的ftp主站点里面可以下载所有数据:

ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

(参考:生信人必学ftp站点之1000genomes

更多的数据库可见:生物信息学相关网站

二、数据下载软件

以SRA数据库数据为例

1、数据下载软件Aspera :

Aspera 软件以最快速度传输全球数据,不 受文件大小、传输距离或网络条件的影响。 具有 fasp™ 传输专利技术,是一项突破性 传输协议,充分利用现有的 WAN 基础设 施和通用硬件,传输速度比 FTP 和 HTTP 快达数百倍。 支持在云平台上或公共、私人或混合型云 平台上进行部署,涵盖广泛的服务器、桌 面和移动操作系统,具有端对端安全性、 100% 可靠性以及卓越的带宽控制能力。

Aspera connect在Ubuntu的下载和安装 :

wget https://download.asperasoft.com/download/sw/conne ct/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar_1.gz

tar zvxf aspera-connect-3.6.2.117442-linux-64.tar_1.gz

sh aspera-connect-3.6.2.117442-linux-64.sh

echo "alias ascp=/home/noodles/.aspera/connect/bin/ascp" >> ~/.bashrc

source ~/.bashrc

ascp -h

参考:Ubuntu下Aspera connect的安装与使用

~/.bashrc: 该文件包含专用于你的bash shell的bash信息,当登录时以及每次打开新的shell时,该该文件被读取。将 ascp 添加至此处。参考:.bash_profile和.bashrc的什么区别及启动过程 。每次修改.bashrc后,使用source ~/.bashrc 使修改立即生效。

根据数据的accession no. 逐步定位到sra文件,并得到ftp下载地址:

如SRR6208854的ftp下载地址为:ftp://ftp.ncbi.nlm.nih.gov/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra

则将其改为:

anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra

然后就可以在Ubuntu上使用aspera下载SRA文件,首先我们了解以下部分aspera参数:

USAGE:ascp [参数] 目标文件 目的地址

-T 不进行加密。若不添加此参数,可能会下载不了。

-i string 输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥, 使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。

-l string 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。

-k 1 支持断点续传

--host=string ftp的host名,NCBI的为ftp-private.ncbi.nlm.nih.gov;EBI的为fasp.sra.ebi.ac.uk。

--user=string 用户名,NCBI的为anonftp,EBI的为era-fasp。

--mode=string 选择模式,上传为 send,下载为 recv。

--file-list 批量下载SRA文件的路径

因此可通过下述命令来下载SRR6208854.sra文件:

ascp -T -i /home/noodles/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR620/SRR6208854/SRR6208854.sra ./

(若ascp未添加环境变量,则使用 ~/.aspera/connect/bin/ascp )

我们可以发现,NCBI-SRA数据库的sra文件前面的地址都是一样的/sra/sra-instant/reads/ByRun/sra/SRR/...,可以根据需要下载的sra文件来编写脚本进行批量下载sra文件,也可过把sra文件的id写到一个文档,使用ascp批量下载文档中所有的sra文件,举例如下:

首先vi创建一个文本文件,如SRR_Download_List,内容为:

/sra/sra-instant/reads/ByRun/sra/SRR/SRR623/SRR6232298/SRR6232298.sra

/sra/sra-instant/reads/ByRun/sra/SRR/SRR623/SRR6232299/SRR6232299.sra

然后运行:

~/.aspera/connect/bin/ascp -T -i /home/noodles/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list ./sra_list.txt ./

即可下载。(上述末尾的./表示下载到当前目录)

参考:从NCBI-SRA和EBI-ENA数据库下载数据

2、SRA数据下载工具  SRA toolkit

SRA toolkit由NCBI开发,用于下载处理SRA文件,含有各种数据格式转换的工具包,其中fastq-dump和prefetch经常使用:

fastq-dump:用于将SRA数据fastq格式

prefetch:允许使用命令行来下载SRA,dbGap和ADSP数据

SRA的安装方法(参考:SRAtoolkit安装步骤):

Step 1:下载SRAtoolkit软件包这里用wget的-P参数,设置下载文件保存的路径是~/Biosofts/sratoolkit

wget -P ~/Biosofts/sratoolkit https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.9.2/sratoolkit.2.9.2-ubuntu64.tar.gz

Step 2:解压压缩包用tar命令的-C参数,设置解压文件保存路径在~/Biosofts/sratoolkit

tar zvxf ~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64.tar.gz -C ~/Biosofts/sratoolkit

Step 3:测试安装是否成功

~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64/bin/fastq-dump -h

Step 4:将sratoolkit安装文件路径加入环境变量

echo 'export PATH=~/Biosofts/sratoolkit/sratoolkit.2.9.2-ubuntu64/bin:$PATH' >> ~/.bashrc

source ~/.bashrc

Step 5:再次测试sratoolkit安装情况

fastq-dump

prefetch

当SRAtoolkit下载安装好后,即可使用prefetch来下载sra文件,以及使用fastq-dump将SRA数据fastq格式:

prefetch accession no. 即可下载,如下载 SRR6232298,则:

prefetch SRR6232298

软件自动建立~/ncbi/public/sra文件夹,sra文件

相关文章

  • 测序数据的获取与格式转换

    目录 测序数据的获取:SRA数据库,数据下载软件Aspera 格式转换:SRAToolkit 一、测序数据的获取 ...

  • 测序数据的获取

    一、数据库简单介绍 1、SRA数据库: NCBI的SRA数据库是美国国立卫生研究院(NIH)存储高通量测序数据的主...

  • 测序数据的获取、格式转换和质控

    1. 获取测序数据 Aspera 软件以最快速度传输全球数据,不受文件大小、传输距离或网络条件的影响。 ubunt...

  • 数据过滤

    二代测序数据过滤 1.基因测序技术 2.二代测序比较 3.测序通用流程 4.测序数据错误(针对每项过滤) 5.测序...

  • 生信基础-测序原理

    生物信息分析的前提是获得了测序数据,关于测序原始数据也涉及非常多知识及细节,如果明白了测序原理及测序数据产生的过程...

  • 转录组质控

    1.获取原始数据 公司测序下机数据可能是rawdata,也可能是cleandata,无论是哪种最好自己都做一遍质控...

  • 从国家基因组科学数据中心(NGDC)下载原始测序数据

    最近在看拟南芥基因组组装相关的论文,想把论文中提到的原始测序数据下载下来,论文中数据获取的部分写道 The raw...

  • 从文章中获取测序数据

    作业要求 本系列课程学习的文章是:AKAP95 regulates splicing through scaffo...

  • 文件格式——FASTQ

    FASTQ存的是产生自测序仪的原始测序数据,它由测序的图像数据转换过来,也是文本文件,文件大小依照不同的测序量(或...

  • 禾谷镰刀菌转录组分析--准备数据

    1、准备数据:测序数据和参考基因组测序数据:NCBI中SRA数据库,Accession: PRJNA522013 ...

网友评论

    本文标题:测序数据的获取

    本文链接:https://www.haomeiwen.com/subject/hdqahqtx.html