美文网首页生物信息学扩增子
微生物组16S rRNA数据分析小结:raw data sequ

微生物组16S rRNA数据分析小结:raw data sequ

作者: GPZ_Lab | 来源:发表于2020-04-15 18:14 被阅读0次

    笔记内容:
    拿到原始数据后,在做上游分析之前,需要了解和注意的:

    • 16s rRNA是什么,测它有什么用
    • 序列文件(raw sequence data)是怎么来的?
    • raw sequence data的简要介绍
    • checklist: 拿到raw sequence data后,需要check的事情

    16s rRNA是什么,测它有什么用

    细菌的核糖体RNA(rRNA)按照沉降系数分为5S, 16S, 23S三种。16s rRNA是微生物核糖体RNA的一个亚基,16s rDNA是编码该亚基的基因,存在于所有细菌染色体基因中。测序是将16S rDNA扩增出来,而不是研究RNA。

    将翻译16S rRNA的DNA扩增出来测序,目的为识别样本中有哪些原核生物物种(细菌/古菌),研究物种多样性。包括他们的相对丰度及物种构成。

    为什么可以根据16S rRNA来识别其物种?16S rRNA测序是测其上若干个可变区。这些可变区是species-specific的,可以根据这些可变区的序列特征识别出其物种。同时可变区中穿插着一些保守区。保守区则在不同物种之中变化不大,不能用于特异的识别其属于哪一个物种。

    灰色部分为可变区

    raw sequence data是怎么来的?

    Illumina二代测序的具体过程可以通过官方视频了解,十分详细。大概是:

    • 采集样品(如粪便,皮肤等), 提取微生物DNA
    • 扩增DNA:通过桥式扩增,得到大量扩增的DNA片段
    • 测序:将带荧光标记的叠氮基团结合到待测链上,得到各碱基对应的特定荧光,以此得到测序结果。
    • output: 测序得到n个reads,被output成fastq文件,根据primer和barcode来整理这些reads,得到各个样本的R1和R2,再进行后续分析。

    参考wiki
    参考illumina官网
    官网视频是youtube的,这里是一个B站的
    另一个B站视频

    raw sequence data的简要介绍

    raw sequence data的fastq格式文件,有固定的格式。参考https://en.wikipedia.org/wiki/FASTQ_format

    列举工作中常见的两种双端测序得到的raw seqence data:

    1. 未分样本,按批次分文件的下机序列数据:
      批次a_R1.fastq.gz, 批次a_R2.fastq.gz
      批次b_R1.fastq.gz, 批次b_R2.fastq.gz ...
      这样的文件会附一个mapping file, 提供了各个样本的barcode,ForwardPrimer及ReversePrimer,如下所示。有的只有一边barcode,有的有双barcode,下表为双barcode的例子:
    sampleID ForwardBarcode ForwardPrimer ReverseBarcode ReversePrimer
    sample1 ATGCATCG AGAGTTTGATCMTGGCTCAG TAGGACCG GCTGCCTCCCGTAGGAGT
    sample2 ATGCATCG AGAGTTTGATCMTGGCTCAG AAGCACTC GCTGCCTCCCGTAGGAGT
    ... ... ... ... ...
    示意图 fastq格式:比方说这是a批次的R1和R2
    1. 按样本分好各文件的序列数据:
      sample1_R1.fastq.gz, sample1_R2.fastq.gz
      sample2_R1.fastq.gz, sample2_R2.fastq.gz ...
      这种data不是很raw,是将1中的下机数据按照mapping file中样本的信息分好,则得到这样的文件。由于分好样本了,基本不需要mapping file。但如果没有去除adapter和primer,你需要找测序的人要adapter和primer,并且grep一下看看到底有没有。
      其fastq格式和上面的差不多。在不同的流程和软件处理的过程中,其header会根据分析需求做出改变。

    check list:拿到raw sequence data后,开始上游分析

    1. 手头的数据测的是16s的哪个区域?v1-v2?v3-v4?v4?,check对应的primer. 将For和Rev的primer在R1和R2的序列中都grep一下。checkR1的file中是否存在ReversePrimer,R2的file中是否存在ForwardPrimer
      如果存在这种“互换”的情况,需要把它们换回来。并且记得将header中R1,R2的信息更新。
    image.png
    1. raw data分好样本了吗?没有的话需要根据barcode和primer来分样本,跟测序合作者要mapping file
      mapping file获取之后,随机抽取一些barcode和primer检查,防止出现1中的问题。以及要检查primer前的的序列是否真的是barcode。barcode前面是否还有其它前缀序列。
    1. 分好样本的为XXR1.fastq, XXR2.fastq这样的格式,不论是你自己分的还是raw data给到你就是这个,都要check primer和barcode是否还在上面,决定后面是否需要cutadapt。自己cutadapt之后也要check一下,以防cut错了。
    1. 在R1和R2中随机抽取几条blast看一下方向,是否与R1(+), R2(-)一致。也是防止R1和R2发生“互调”的问题。
    1. 遇到坑了再补充

    相关文章

      网友评论

        本文标题:微生物组16S rRNA数据分析小结:raw data sequ

        本文链接:https://www.haomeiwen.com/subject/eanwyhtx.html