笔记内容:
拿到原始数据后,在做上游分析之前,需要了解和注意的:
- 16s rRNA是什么,测它有什么用
- 序列文件(raw sequence data)是怎么来的?
- raw sequence data的简要介绍
- checklist: 拿到raw sequence data后,需要check的事情
16s rRNA是什么,测它有什么用
细菌的核糖体RNA(rRNA)按照沉降系数分为5S, 16S, 23S三种。16s rRNA是微生物核糖体RNA的一个亚基,16s rDNA是编码该亚基的基因,存在于所有细菌染色体基因中。测序是将16S rDNA扩增出来,而不是研究RNA。
将翻译16S rRNA的DNA扩增出来测序,目的为识别样本中有哪些原核生物物种(细菌/古菌),研究物种多样性。包括他们的相对丰度及物种构成。
为什么可以根据16S rRNA来识别其物种?16S rRNA测序是测其上若干个可变区。这些可变区是species-specific的,可以根据这些可变区的序列特征识别出其物种。同时可变区中穿插着一些保守区。保守区则在不同物种之中变化不大,不能用于特异的识别其属于哪一个物种。
灰色部分为可变区raw sequence data是怎么来的?
Illumina二代测序的具体过程可以通过官方视频了解,十分详细。大概是:
- 采集样品(如粪便,皮肤等), 提取微生物DNA
- 扩增DNA:通过桥式扩增,得到大量扩增的DNA片段
- 测序:将带荧光标记的叠氮基团结合到待测链上,得到各碱基对应的特定荧光,以此得到测序结果。
- output: 测序得到n个reads,被output成fastq文件,根据primer和barcode来整理这些reads,得到各个样本的R1和R2,再进行后续分析。
参考wiki
参考illumina官网
官网视频是youtube的,这里是一个B站的
另一个B站视频
raw sequence data的简要介绍
raw sequence data的fastq格式文件,有固定的格式。参考https://en.wikipedia.org/wiki/FASTQ_format
列举工作中常见的两种双端测序得到的raw seqence data:
-
未分样本,按批次分文件的下机序列数据:
批次a_R1.fastq.gz
,批次a_R2.fastq.gz
批次b_R1.fastq.gz
,批次b_R2.fastq.gz
...
这样的文件会附一个mapping file, 提供了各个样本的barcode,ForwardPrimer及ReversePrimer,如下所示。有的只有一边barcode,有的有双barcode,下表为双barcode的例子:
sampleID | ForwardBarcode | ForwardPrimer | ReverseBarcode | ReversePrimer |
---|---|---|---|---|
sample1 | ATGCATCG | AGAGTTTGATCMTGGCTCAG | TAGGACCG | GCTGCCTCCCGTAGGAGT |
sample2 | ATGCATCG | AGAGTTTGATCMTGGCTCAG | AAGCACTC | GCTGCCTCCCGTAGGAGT |
... | ... | ... | ... | ... |
-
按样本分好各文件的序列数据:
sample1_R1.fastq.gz
,sample1_R2.fastq.gz
sample2_R1.fastq.gz
,sample2_R2.fastq.gz
...
这种data不是很raw,是将1中的下机数据按照mapping file中样本的信息分好,则得到这样的文件。由于分好样本了,基本不需要mapping file。但如果没有去除adapter和primer,你需要找测序的人要adapter和primer,并且grep一下看看到底有没有。
其fastq格式和上面的差不多。在不同的流程和软件处理的过程中,其header会根据分析需求做出改变。
check list:拿到raw sequence data后,开始上游分析前
image.png
- 手头的数据测的是16s的哪个区域?v1-v2?v3-v4?v4?,check对应的primer. 将For和Rev的primer在R1和R2的序列中都grep一下。checkR1的file中是否存在ReversePrimer,R2的file中是否存在ForwardPrimer。
如果存在这种“互换”的情况,需要把它们换回来。并且记得将header中R1,R2的信息更新。
- raw data分好样本了吗?没有的话需要根据barcode和primer来分样本,跟测序合作者要mapping file
mapping file获取之后,随机抽取一些barcode和primer检查,防止出现1中的问题。以及要检查primer前的的序列是否真的是barcode。barcode前面是否还有其它前缀序列。
- 分好样本的为XXR1.fastq, XXR2.fastq这样的格式,不论是你自己分的还是raw data给到你就是这个,都要check primer和barcode是否还在上面,决定后面是否需要cutadapt。自己cutadapt之后也要check一下,以防cut错了。
- 在R1和R2中随机抽取几条blast看一下方向,是否与R1(+), R2(-)一致。也是防止R1和R2发生“互调”的问题。
- 遇到坑了再补充
网友评论