目录
1.Module 1 - Introduction to RNA sequencing
- Installation
- Reference Genomes
- Annotations
- Indexing
- RNA-seq Data
- Pre-Alignment QC
2.Module 2 - RNA-seq Alignment and Visualization
- Adapter Trim
- Alignment
- IGV
- Alignment Visualization
- Alignment QC
3.Module 3 - Expression and Differential Expression
- Expression
- Differential Expression
- DE Visualization
- Kallisto for Reference-Free Abundance Estimation
4.Module 4 - Isoform Discovery and Alternative Expression
- Reference Guided Transcript Assembly
- de novo Transcript Assembly
- Transcript Assembly Merge
- Differential Splicing
- Splicing Visualization
5.Module 5 - De novo transcript reconstruction
- De novo RNA-Seq Assembly and Analysis Using Trinity
6.Module 6 - Functional Annotation of Transcripts
- Functional Annotation of Assembled Transcripts Using Trinotate
1.5 RNA-seq Data
获取RNA-seq测试数据
测试数据包括两种RNA样本:通用人类参考(UHR)和人类大脑参考(HBR)。UHR是从10种不同的癌细胞株中分离出的总RNA。HBR是从23名白种人的大脑中分离出的总RNA,这些白种人有男有女,年龄各不相同,但大部分年龄在60-80岁之间。
此外,还使用了插入控制。具体地说,在每个样本中添加了ERCC ExFold RNA spikein Control Mixes 。插入由92个转录本组成,它们以已知浓度分布在广泛的丰度范围内(从很少的拷贝到很多拷贝)。这个范围允许我们测试RNA-seq检测(包括所有实验室和分析步骤)准确反映样品中转录物种相对丰度的程度。这些转录本有两种“混合”,允许评估样本之间的差异表达输出,如果您将一个混合在您的两个比较。在我们的示例中,Mix1被添加到UHR样本中,Mix2被添加到HBR样本中。每个样品我们也有3个完整的实验重复。这使我们能够评估在实验室中产生RNA-seq数据的整个过程的技术变异性。
对于所有的文库,准备了低通量(Set A)TruSeq链总RNA样本准备试剂盒文库,使用Ribo-Zero Gold去除细胞质和线粒体rRNA。以100ng Agilent/Strategene通用人总RNA和100ng Ambion人脑组织总RNA为参考,建立3个重复的索引文库。通用人参考重复接受2 ul的1:1000 ERCC Mix 1。人脑参考复制量为1:1000 ERCC Mix 2。用KAPA文库定量qPCR对文库进行定量,并调整到合适的浓度
总结下,现在有六组数据
- UHR + ERCC Spike-In Mix1, Replicate 1
- UHR + ERCC Spike-In Mix1, Replicate 2
- UHR + ERCC Spike-In Mix1, Replicate 3
- HBR + ERCC Spike-In Mix2, Replicate 1
- HBR + ERCC Spike-In Mix2, Replicate 2
- HBR + ERCC Spike-In Mix2, Replicate 3
每个数据集都有一对对应的FastQ文件(reads1和reads2)。
该序列是在Illumina HiSeq仪器上产生的配对端101-mers。测试数据已预先过滤,以找出与22号染色体相对应的序列。让将原始输入数据复制到教程的工作目录中。
wget http://genomedata.org/rnaseq-tutorial/HBR_UHR_ERCC_ds_5pc.tar
解压测试数据。应该看到6组成对的 fastq文件。上面的每个样本复制都有一个。我们有6对(12个文件),因为在fastq格式中,每个读对(片段)的读1和读2存储在单独的文件中。
tar -xvf HBR_UHR_ERCC_ds_5pc.tar
ls
HBR_Rep1_ERCC-Mix2_Build37-ErccTranscripts-chr22.read1.fastq.gz
HBR_Rep1_ERCC-Mix2_Build37-ErccTranscripts-chr22.read2.fastq.gz
HBR_Rep2_ERCC-Mix2_Build37-ErccTranscripts-chr22.read1.fastq.gz
HBR_Rep2_ERCC-Mix2_Build37-ErccTranscripts-chr22.read2.fastq.gz
HBR_Rep3_ERCC-Mix2_Build37-ErccTranscripts-chr22.read1.fastq.gz
HBR_Rep3_ERCC-Mix2_Build37-ErccTranscripts-chr22.read2.fastq.gz
UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz
UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read2.fastq.gz
UHR_Rep2_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz
UHR_Rep2_ERCC-Mix1_Build37-ErccTranscripts-chr22.read2.fastq.gz
UHR_Rep3_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz
UHR_Rep3_ERCC-Mix1_Build37-ErccTranscripts-chr22.read2.fastq.gz
输入data目录,查看文件的前两条reads记录(fastq格式下,每条reads对应4行数据)
zcat UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz | head -n 8
@HWI-ST718_146963544:6:1213:8996:10047/1
CTTTTTTATTTTTGTCTGACTGGGTTGATTCAAAGGTCTGGTCTTTGAGCTCTTAAATTAGTTCTTCTATTTGGCCTAGTCTGTTGCTAAGGCTGCCAAC
+
CCCFFFFFHHHHGJHIIJHIHIIIFHIJJJJIJJGIBBFGEGGHIIHGGIJJIIHGGHIIIFGCGHHIIHIHHEEE?DFEFFFEEDCEEDDDDDDDBCDD
@HWI-ST718_146963544:5:2303:11793:37095/1
ATGAATTATAGGGCTGTATTTTAATTTTGCATTTTAAATTCCTGCAGTTTTCTTCCATCACTTTTCACCATGCATTGTATACTTGGAATTGCTTTTTGTG
+
@@??BDDFFF<FHEGFFGGIEBGHIIIIIBEHIIGIH<FHEFHHCHABF@DFHGGGII<DHBFGGGGBEGGIBHG@DHGIIIH@DE>CCHF:;>@BC>@@
识别每个reads的以下组件:名称、序列和质量字符串
第一个文件有多少reads?使用'zcat'动态解压缩文件,管道到'grep',和'wc'来做单词计数('-l'给出行)
zcat UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz | grep -P "^\@HWI" | wc -l
227392
练习3
任务:下载一个额外的数据集并解压缩它。这些数据将在以后的实际练习中使用。
-
提示:在一个单独的名为practice的工作目录中这样做,并为组织(数据、对齐等)创建子目录。
-
在这个练习中,您将从这里下载一个公共读取数据的存档:http://genomedata.org/rnaseq-tutorial/practical.tar
实践数据集包括来自HCC1395乳腺癌细胞系的3个重复数据和来自HCC1395BL匹配淋巴母细胞系的3个重复数据。因此,这将是肿瘤与正常(细胞系)的比较。该序列是在Illumina HiSeq仪器上产生的151-mers配对端序列。测试数据已预先过滤,以找出与22号染色体相对应的序列。
mkdir -p practice/data
cd /practice/data
wget http://genomedata.org/rnaseq-tutorial/practical.tar
tar -xvf practical.tar
ll -1 *.fastq.gz | wc -l
zcat hcc1395_normal_rep1_r1.fastq.gz | head -n 1
zcat hcc1395_normal_rep1_r1.fastq.gz | head -n 2 | tail -n 1 | perl -ne '$_ = s/T/X/g; print "\n\n$_\n\n"'
#Alternatively:
zcat hcc1395_normal_rep1_r1.fastq.gz | head -n 2 | tail -n 1 | grep -o T | wc
-
1.practical.tar中包含多少文件?常用的序列格式是什么?
-
包中有12个数据文件。每个都是经过压缩的FASTQ文件。
-
2.In the first read of the hcc1395, normal, replicate 1, read 1 file, what was the physical location of the read on the flow cell?
-
Lane = 4, tile = 1101, x = 10003, y = 44458.
-
在这个文件的第一个read中,有多少个“T”碱基?
-
32
网友评论