美文网首页
RNAseq教程(1.5)

RNAseq教程(1.5)

作者: 周小钊 | 来源:发表于2020-12-23 17:02 被阅读0次

目录

1.Module 1 - Introduction to RNA sequencing

  1. Installation
  2. Reference Genomes
  3. Annotations
  4. Indexing
  5. RNA-seq Data
  6. Pre-Alignment QC

2.Module 2 - RNA-seq Alignment and Visualization

  1. Adapter Trim
  2. Alignment
  3. IGV
  4. Alignment Visualization
  5. Alignment QC

3.Module 3 - Expression and Differential Expression

  1. Expression
  2. Differential Expression
  3. DE Visualization
  4. Kallisto for Reference-Free Abundance Estimation

4.Module 4 - Isoform Discovery and Alternative Expression

  1. Reference Guided Transcript Assembly
  2. de novo Transcript Assembly
  3. Transcript Assembly Merge
  4. Differential Splicing
  5. Splicing Visualization

5.Module 5 - De novo transcript reconstruction

  1. De novo RNA-Seq Assembly and Analysis Using Trinity

6.Module 6 - Functional Annotation of Transcripts

  1. Functional Annotation of Assembled Transcripts Using Trinotate

1.5 RNA-seq Data

获取RNA-seq测试数据

测试数据包括两种RNA样本:通用人类参考(UHR)人类大脑参考(HBR)。UHR是从10种不同的癌细胞株中分离出的总RNA。HBR是从23名白种人的大脑中分离出的总RNA,这些白种人有男有女,年龄各不相同,但大部分年龄在60-80岁之间。

此外,还使用了插入控制。具体地说,在每个样本中添加了ERCC ExFold RNA spikein Control Mixes 。插入由92个转录本组成,它们以已知浓度分布在广泛的丰度范围内(从很少的拷贝到很多拷贝)。这个范围允许我们测试RNA-seq检测(包括所有实验室和分析步骤)准确反映样品中转录物种相对丰度的程度。这些转录本有两种“混合”,允许评估样本之间的差异表达输出,如果您将一个混合在您的两个比较。在我们的示例中,Mix1被添加到UHR样本中,Mix2被添加到HBR样本中。每个样品我们也有3个完整的实验重复。这使我们能够评估在实验室中产生RNA-seq数据的整个过程的技术变异性。

对于所有的文库,准备了低通量(Set A)TruSeq链总RNA样本准备试剂盒文库,使用Ribo-Zero Gold去除细胞质和线粒体rRNA。以100ng Agilent/Strategene通用人总RNA和100ng Ambion人脑组织总RNA为参考,建立3个重复的索引文库。通用人参考重复接受2 ul的1:1000 ERCC Mix 1。人脑参考复制量为1:1000 ERCC Mix 2。用KAPA文库定量qPCR对文库进行定量,并调整到合适的浓度

总结下,现在有六组数据

  • UHR + ERCC Spike-In Mix1, Replicate 1
  • UHR + ERCC Spike-In Mix1, Replicate 2
  • UHR + ERCC Spike-In Mix1, Replicate 3
  • HBR + ERCC Spike-In Mix2, Replicate 1
  • HBR + ERCC Spike-In Mix2, Replicate 2
  • HBR + ERCC Spike-In Mix2, Replicate 3

每个数据集都有一对对应的FastQ文件(reads1和reads2)。

该序列是在Illumina HiSeq仪器上产生的配对端101-mers。测试数据已预先过滤,以找出与22号染色体相对应的序列。让将原始输入数据复制到教程的工作目录中。

wget http://genomedata.org/rnaseq-tutorial/HBR_UHR_ERCC_ds_5pc.tar

解压测试数据。应该看到6组成对的 fastq文件。上面的每个样本复制都有一个。我们有6对(12个文件),因为在fastq格式中,每个读对(片段)的读1和读2存储在单独的文件中。

tar -xvf HBR_UHR_ERCC_ds_5pc.tar
ls
HBR_Rep1_ERCC-Mix2_Build37-ErccTranscripts-chr22.read1.fastq.gz
HBR_Rep1_ERCC-Mix2_Build37-ErccTranscripts-chr22.read2.fastq.gz
HBR_Rep2_ERCC-Mix2_Build37-ErccTranscripts-chr22.read1.fastq.gz
HBR_Rep2_ERCC-Mix2_Build37-ErccTranscripts-chr22.read2.fastq.gz
HBR_Rep3_ERCC-Mix2_Build37-ErccTranscripts-chr22.read1.fastq.gz
HBR_Rep3_ERCC-Mix2_Build37-ErccTranscripts-chr22.read2.fastq.gz
UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz
UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read2.fastq.gz
UHR_Rep2_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz
UHR_Rep2_ERCC-Mix1_Build37-ErccTranscripts-chr22.read2.fastq.gz
UHR_Rep3_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz
UHR_Rep3_ERCC-Mix1_Build37-ErccTranscripts-chr22.read2.fastq.gz

输入data目录,查看文件的前两条reads记录(fastq格式下,每条reads对应4行数据)

zcat UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz | head -n 8
@HWI-ST718_146963544:6:1213:8996:10047/1
CTTTTTTATTTTTGTCTGACTGGGTTGATTCAAAGGTCTGGTCTTTGAGCTCTTAAATTAGTTCTTCTATTTGGCCTAGTCTGTTGCTAAGGCTGCCAAC
+
CCCFFFFFHHHHGJHIIJHIHIIIFHIJJJJIJJGIBBFGEGGHIIHGGIJJIIHGGHIIIFGCGHHIIHIHHEEE?DFEFFFEEDCEEDDDDDDDBCDD
@HWI-ST718_146963544:5:2303:11793:37095/1
ATGAATTATAGGGCTGTATTTTAATTTTGCATTTTAAATTCCTGCAGTTTTCTTCCATCACTTTTCACCATGCATTGTATACTTGGAATTGCTTTTTGTG
+
@@??BDDFFF<FHEGFFGGIEBGHIIIIIBEHIIGIH<FHEFHHCHABF@DFHGGGII<DHBFGGGGBEGGIBHG@DHGIIIH@DE>CCHF:;>@BC>@@

识别每个reads的以下组件:名称、序列和质量字符串

第一个文件有多少reads?使用'zcat'动态解压缩文件,管道到'grep',和'wc'来做单词计数('-l'给出行)

zcat UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz | grep -P "^\@HWI" | wc -l
227392

练习3

任务:下载一个额外的数据集并解压缩它。这些数据将在以后的实际练习中使用。

实践数据集包括来自HCC1395乳腺癌细胞系的3个重复数据和来自HCC1395BL匹配淋巴母细胞系的3个重复数据。因此,这将是肿瘤与正常(细胞系)的比较。该序列是在Illumina HiSeq仪器上产生的151-mers配对端序列。测试数据已预先过滤,以找出与22号染色体相对应的序列。

mkdir -p practice/data
cd /practice/data
wget http://genomedata.org/rnaseq-tutorial/practical.tar
tar -xvf practical.tar
ll -1 *.fastq.gz | wc -l
zcat hcc1395_normal_rep1_r1.fastq.gz | head -n 1
zcat hcc1395_normal_rep1_r1.fastq.gz | head -n 2 | tail -n 1 | perl -ne '$_ = s/T/X/g; print "\n\n$_\n\n"'

#Alternatively:
zcat hcc1395_normal_rep1_r1.fastq.gz | head -n 2 | tail -n 1 | grep -o T | wc
  • 1.practical.tar中包含多少文件?常用的序列格式是什么?

  • 包中有12个数据文件。每个都是经过压缩的FASTQ文件。

  • 2.In the first read of the hcc1395, normal, replicate 1, read 1 file, what was the physical location of the read on the flow cell?

  • Lane = 4, tile = 1101, x = 10003, y = 44458.

  • 在这个文件的第一个read中,有多少个“T”碱基?

  • 32

相关文章

网友评论

      本文标题:RNAseq教程(1.5)

      本文链接:https://www.haomeiwen.com/subject/iikunktx.html