转录组学习二（数据下载）

作者: Dawn_WangTP | 来源:发表于2018-02-27 21:17 被阅读95次

转录组学习三（数据质控）
转录组学习二（数据下载）
转录组学习五（reads比对）
转录组学习八（功能富集分析）
转录组学习六（reads计数与标准化）
转录组学习四（参考基因组及gtf注释探究）
转录组学习一（软件安装）
TCGA转录组数据及临床数据下载及整理
下载转录组数据的方法
【转录组02】转录组数据下载

转录组学习一（软件安装）
转录组学习二（数据下载）
转录组学习三（数据质控）
转录组学习四（参考基因组及gtf注释探究）
转录组学习五（reads的比对与samtools排序）
转录组学习六（reads计数与标准化）
转录组学习七（差异基因分析）
转录组学习八（功能富集分析）

任务

学习的文章是：《AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors》. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
在文章里面找到数据地址GSE81916 这样就可以下载sra文件作业，看文章里的methods部分，把它用到的软件和参数摘抄下来，然后理解GEO/SRA数据库的数据存放形式。

文章

image

主要内容的是利用RNA-seq及RIP-seq(RNA-immunoprecipitation)来证明AKAP95对转录后调控的可变剪接具有重要作用。
其中对于RNA-seq分析部分主要在Methods方法的Bioinformatic analyses：
测序平台：Illumina HiSeq 2500
取样物种：Homo sapiens和Mus musculus 的293个cells
数据类型：双末端PE reads 2 x 50bp
参考基因组：人类参考基因组CRCh37/hg19
比对软件：TopHat(v2.0.13)
GTF文件类型：GRCh38.70
比对数据质控：过滤低质量比对reads(MQ > 30)
平均插入长度及标准差(mean insert sizes and the s.d.'s)：Picard-tools(v 1.126)
计算reads count: HTSeq(v0.6.0)
差异基因分析：DESeq(v3.0)
差异外显子分析：DEXSeq(v3.1)
(RPKM/FPKM?)The read per million normalized:BEDTools(v2.17.0), bedGraphToBigWig tool(v4)
GO富集分析：DAVID

数据

首先简单介绍NCBI的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)

GEO数据库(Gene expression Omnibus)就是当今最大、最全面的公共基因表达数据资源。简单说GEO就是一个公共数据库，包含大多数已在杂志发表文章的原始数据。

主页输入文章的登录号GSE81916。根据Overall design可知：1-8位RIP-seq数据，9-15为RNA-seq数据。其中9-11为AKAP95敲除后在人类293个cells里的数据，12-15为在小鼠ES cells里的数据。故我们需要下载9-15的RNA-seq数据。
另外一个重要的数据库就是SRA Run Selector(https://trace.ncbi.nlm.nih.gov/Traces/study/?go=home]r)。同样搜索数据登录号GSE81916。得出关于这些数据的基本信息，其中我们所关注的RNA-seq数据的基本信息如 image
- SRR原始数据文件为SRR35899{56..62}
- 其中56~58为人类数据 56为对照组，57, 58为控制组
- 59~62为小鼠的数据.实验处理方式如图：
- 最后下载SRR35899{56..62}这7个数据集
- 看了一下，这7个SRR数据需要10.38Gb 解压完全之后共占空间24.17Gb，数据量感觉"比较大"。
  
  image

下载

总共10Gb的数据量下载起来还是需要挺长时间的。目前所知道的有两种下载方式：sratoolkit里自带的preftch程序，与直接循环脚本wget下载数据。

Sratoolkit下载

mkdir rna_seq_test && cd rna_seq_test
###根据SRR数据结尾可知变化的数值主要是最后两个56~62故

for i in `seq 56 62` ## shell的``与seq 两个用法
do
nohup preftch SRR35899${i} & ##preftch与 后台运行
done

preftch程序会将数据下载存储在$HOME/ncbi/public/sra/目录下。总共10.38Gb，慢慢下。

直接根据ftp网址用wget下载
ftp网址一般都是具有规律的。根据徐洲更所提各种网址会分为共同部分和变动部分
FTP网址(ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747)可以分为以下部分(可以自行删除探索其他网站部分)
- 所有SRA数据的共同部分：ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
- reads表示存放reads数据，在FTP可以看到另一个选项是analysis，表示分析结果的文件
- ByStudy表示根据Study进行分类，其他还可以根据实验ByExp,根据Run,ByRun.
- sra/SRP/SRP075/SRP075747: 进一步的分类检索。
  可以知道这些文件的地址改变只有最后两个数字的不同。故循环脚本下载如下

for i in `seq 56 62`
do
nohup wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899{$i}.sra &
done

最后总共下载完10多G啊，截个图