RNAseq教程（1.5）

作者: 周小钊 | 来源:发表于2020-12-23 17:02 被阅读0次

RNAseq教程（1.5）
转录组分析之DESeq2包
RNAseq教程(1.1)
RNAseq教程(4.5)
RNAseq教程(4.1)
RNAseq教程(4.2)
RNAseq教程（3.3）
RNAseq教程（3.4）
RNAseq教程（3.2）
RNAseq教程（3.1）

1.5 RNA-seq Data

获取RNA-seq测试数据

测试数据包括两种RNA样本:通用人类参考(UHR)和人类大脑参考(HBR)。UHR是从10种不同的癌细胞株中分离出的总RNA。HBR是从23名白种人的大脑中分离出的总RNA，这些白种人有男有女，年龄各不相同，但大部分年龄在60-80岁之间。

此外，还使用了插入控制。具体地说，在每个样本中添加了ERCC ExFold RNA spikein Control Mixes 。插入由92个转录本组成，它们以已知浓度分布在广泛的丰度范围内(从很少的拷贝到很多拷贝)。这个范围允许我们测试RNA-seq检测(包括所有实验室和分析步骤)准确反映样品中转录物种相对丰度的程度。这些转录本有两种“混合”，允许评估样本之间的差异表达输出，如果您将一个混合在您的两个比较。在我们的示例中，Mix1被添加到UHR样本中，Mix2被添加到HBR样本中。每个样品我们也有3个完整的实验重复。这使我们能够评估在实验室中产生RNA-seq数据的整个过程的技术变异性。

对于所有的文库，准备了低通量(Set A)TruSeq链总RNA样本准备试剂盒文库，使用Ribo-Zero Gold去除细胞质和线粒体rRNA。以100ng Agilent/Strategene通用人总RNA和100ng Ambion人脑组织总RNA为参考，建立3个重复的索引文库。通用人参考重复接受2 ul的1:1000 ERCC Mix 1。人脑参考复制量为1:1000 ERCC Mix 2。用KAPA文库定量qPCR对文库进行定量，并调整到合适的浓度

总结下，现在有六组数据

UHR + ERCC Spike-In Mix1, Replicate 1
UHR + ERCC Spike-In Mix1, Replicate 2
UHR + ERCC Spike-In Mix1, Replicate 3
HBR + ERCC Spike-In Mix2, Replicate 1
HBR + ERCC Spike-In Mix2, Replicate 2
HBR + ERCC Spike-In Mix2, Replicate 3

每个数据集都有一对对应的FastQ文件(reads1和reads2)。

该序列是在Illumina HiSeq仪器上产生的配对端101-mers。测试数据已预先过滤，以找出与22号染色体相对应的序列。让将原始输入数据复制到教程的工作目录中。

wget http://genomedata.org/rnaseq-tutorial/HBR_UHR_ERCC_ds_5pc.tar

解压测试数据。应该看到6组成对的 fastq文件。上面的每个样本复制都有一个。我们有6对(12个文件)，因为在fastq格式中，每个读对(片段)的读1和读2存储在单独的文件中。

tar -xvf HBR_UHR_ERCC_ds_5pc.tar
ls
HBR_Rep1_ERCC-Mix2_Build37-ErccTranscripts-chr22.read1.fastq.gz
HBR_Rep1_ERCC-Mix2_Build37-ErccTranscripts-chr22.read2.fastq.gz
HBR_Rep2_ERCC-Mix2_Build37-ErccTranscripts-chr22.read1.fastq.gz
HBR_Rep2_ERCC-Mix2_Build37-ErccTranscripts-chr22.read2.fastq.gz
HBR_Rep3_ERCC-Mix2_Build37-ErccTranscripts-chr22.read1.fastq.gz
HBR_Rep3_ERCC-Mix2_Build37-ErccTranscripts-chr22.read2.fastq.gz
UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz
UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read2.fastq.gz
UHR_Rep2_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz
UHR_Rep2_ERCC-Mix1_Build37-ErccTranscripts-chr22.read2.fastq.gz
UHR_Rep3_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz
UHR_Rep3_ERCC-Mix1_Build37-ErccTranscripts-chr22.read2.fastq.gz

输入data目录，查看文件的前两条reads记录(fastq格式下，每条reads对应4行数据)

zcat UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz | head -n 8
@HWI-ST718_146963544:6:1213:8996:10047/1
CTTTTTTATTTTTGTCTGACTGGGTTGATTCAAAGGTCTGGTCTTTGAGCTCTTAAATTAGTTCTTCTATTTGGCCTAGTCTGTTGCTAAGGCTGCCAAC
+
CCCFFFFFHHHHGJHIIJHIHIIIFHIJJJJIJJGIBBFGEGGHIIHGGIJJIIHGGHIIIFGCGHHIIHIHHEEE?DFEFFFEEDCEEDDDDDDDBCDD
@HWI-ST718_146963544:5:2303:11793:37095/1
ATGAATTATAGGGCTGTATTTTAATTTTGCATTTTAAATTCCTGCAGTTTTCTTCCATCACTTTTCACCATGCATTGTATACTTGGAATTGCTTTTTGTG
+
@@??BDDFFF<FHEGFFGGIEBGHIIIIIBEHIIGIH<FHEFHHCHABF@DFHGGGII<DHBFGGGGBEGGIBHG@DHGIIIH@DE>CCHF:;>@BC>@@

识别每个reads的以下组件:名称、序列和质量字符串

第一个文件有多少reads?使用'zcat'动态解压缩文件，管道到'grep'，和'wc'来做单词计数('-l'给出行)

zcat UHR_Rep1_ERCC-Mix1_Build37-ErccTranscripts-chr22.read1.fastq.gz | grep -P "^\@HWI" | wc -l
227392

练习3

任务:下载一个额外的数据集并解压缩它。这些数据将在以后的实际练习中使用。

提示:在一个单独的名为practice的工作目录中这样做，并为组织(数据、对齐等)创建子目录。
在这个练习中，您将从这里下载一个公共读取数据的存档:http://genomedata.org/rnaseq-tutorial/practical.tar

实践数据集包括来自HCC1395乳腺癌细胞系的3个重复数据和来自HCC1395BL匹配淋巴母细胞系的3个重复数据。因此，这将是肿瘤与正常(细胞系)的比较。该序列是在Illumina HiSeq仪器上产生的151-mers配对端序列。测试数据已预先过滤，以找出与22号染色体相对应的序列。

mkdir -p practice/data
cd /practice/data
wget http://genomedata.org/rnaseq-tutorial/practical.tar
tar -xvf practical.tar
ll -1 *.fastq.gz | wc -l
zcat hcc1395_normal_rep1_r1.fastq.gz | head -n 1
zcat hcc1395_normal_rep1_r1.fastq.gz | head -n 2 | tail -n 1 | perl -ne '$_ = s/T/X/g; print "\n\n$_\n\n"'

#Alternatively:
zcat hcc1395_normal_rep1_r1.fastq.gz | head -n 2 | tail -n 1 | grep -o T | wc

1.practical.tar中包含多少文件？常用的序列格式是什么？
包中有12个数据文件。每个都是经过压缩的FASTQ文件。
2.In the first read of the hcc1395, normal, replicate 1, read 1 file, what was the physical location of the read on the flow cell？
Lane = 4, tile = 1101, x = 10003, y = 44458.
在这个文件的第一个read中，有多少个“T”碱基?
32

网友评论

本文标题：RNAseq教程（1.5）

本文链接：https://www.haomeiwen.com/subject/iikunktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

RNAseq教程（1.5）

目录

1.5 RNA-seq Data

获取RNA-seq测试数据

练习3

相关文章

RNAseq教程（1.5）

转录组分析之DESeq2包

RNAseq教程(1.1)

RNAseq教程(4.5)

RNAseq教程(4.1)

RNAseq教程(4.2)

RNAseq教程（3.3）

RNAseq教程（3.4）

RNAseq教程（3.2）

RNAseq教程（3.1）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读