生信小组Day7—艺琳

作者: Jolin__5a2b | 来源:发表于2022-05-14 23:56 被阅读0次

    二代测序原理

    Illumina:二代测序公司

    Illumina-NGS: NGS是测一大堆不确定的序列,把这些序列加上特定的接头,用特定的接头来连到测序芯片的基板上,用接头的特定序列来引导边合成边测序的反应,用接头上的Index序列来区分样本。

    几个基本概念

    lane: 测序反应的平行泳道,试剂添加、洗脱等过程的发生位置

    tile: 每次荧光扫描的位置,肉眼是看不到的

    双端测序: 可能序列比较长有四五百bp,两边各测120-150bp

    junction: 双端测序中间一些没有测到的区域

    flowcell构造:一个lane包含两列(swath),每一列有60个tile,每个tile会种下不同的cluster,每个tile在一次循环中会拍照4次(每个碱基一次)

    素材来源:

    陈巍基因:<u>https://www.bilibili.com/video/BV1oJ411r7e7?spm_id_from=333.337.search-card.all.click</u>

    总结的超棒《生信星球》<u>测序的世界 - 简书 (jianshu.com)</u>

    1.芯片

    Flowcell是拥有8条通道的载玻片,其上以共价键(只有这种连接才不会被洗脱)附有两种DNA引物,可抓捕DNA文库中带有两种接头序列的互补DNA。所有的核心反应将在其上进行(关于DNA文库,了解Truseq和Nextera试剂盒)。

    测序前样本的文库扩增:超声打断基因组DNA,残端用特定的酶补齐,在两条非同义链末端用Klenow酶分别加一个A碱基,再用DNA连接酶把特定的已知接头序列(adaptors 有4个模块)安装在A末端,然后进行PCR浓度扩增,构成单链DNA文库。——称之为文库。即Library


    图片1.png 图片2.png

    2.建立桥式PCR

    目的在于把DNA文库在种在芯片上,进行扩增(一开始只是贴上去基因组原DNA片段的很容易被洗掉),以便于后续有足够强度的荧光识别信号。

    接种,加入dNTP和DNA聚合酶→合成互补链(不仅文库被合成,另一端的引物序列也会被合成)→NaOH溶液解链后(非共价键结合在芯片上的模板链被洗脱)互补链的另一端与芯片上的另一种引物结合,形成桥→中和溶液将NaOH中和掉,加入dNTP和DNA聚合酶再次合成双链→再加NaOH溶液解链。指数扩增DNA文库。

    重复上述过程。

    完成后,在桥式双链解开后为正反链均存在的单链后,“特殊酶”将反向链切断、NaOH洗去反向链,留下正向链和反向链的共价键序列接头在芯片上(因为测序不能识别正反双链,只能识别单链)。同时为防止特异性结合重新形成单链桥,3‘端被封锁。

    图片3.png 图片4.png

    目的是快速扩增lane p7接头连接的链,也就是****上****图中的Forward Strand,它和我们的模版链是一致的。****我们后来测序只用这一半

    3.测序

    小结:R****ead1 product边合成边测序:先是primer结合到靠近p5的sequencing primer binding site1上,再加入特殊的dNTP延长并测序。

    接着进行****Index测序: 上面的循环结束后,read product被冲掉,index1 primer和链上的index1 互补配对,进行index1的检测。测完后,洗脱产物,得到index1 的序列。接下来p5与lane上的p5‘配对,测得了index2,并洗脱。

    双端测序之Reverse Strand: 洗脱掉index2 产物后,还是一个桥式扩增,得到双链,再变性得到原始Forward strand 和 新的Reverse Strand, 除去测完的Forward strand。然后和测Forward一样,也是先连接primer,只是连接的位点是Primer Binding Site2,测完后得到reverse strand序列。都只是测150-200bp,而真正片段可能有500bp或更长。

    具体:

    加dNTP(荧光标记、3‘端带叠氮基,导致不能延长),加DNA聚合酶,这样每次合成只能延长一个碱基而不是都挤上去这样测不过来。用水冲掉多余反应物,进行激光扫描,即可读出一个碱基,即合成一节看一个。

    激光扫描后,将叠氮基(可以接着它加下一个碱基)和荧光(避免下次扫描影响数据读取)切掉,继续上述步骤。当读取结束时通过一个二脱氧核苷酸终止于一条模版链终端位置。[图片上传失败...(image-1cfedc-1652629791786)]

    图片5.png

    20个微孔彩色亮点代表20个序列一致的clusters,如果不进行35个循环,那就是很弱的亮点,但也是20个

    4.读取条形码(index,也叫做Barcode 是在构建DNA文库时接头序列中的一段特定序列。拗口...)

    index存在的意义是样本中DNA数量级很高几亿条 有时候不需要测那么多量,为减少成本,就用这个index来标记样本的来源****。

    先把读取read1后的(测序引物+dNTP)“荧光链”碱性液解链后冲掉,加入中性液read2测序引物,read2测序引物识别的Read2 位置正好就在index旁边,一般测序识别6-8个碱基,这样就可以知道某一段DNA来自原始的哪个样本。

    注:不同的测序机器原理都差不多,都是将接头序列提前共价键装载与固体材料上,

    然后通过扩增产生DNA簇,每个簇都来自单独的DNA文库,每种簇又作为单独的测序反应,因此来识别不同样本来源的DNA。

    补充:

    1、(不太懂)关于测序文库的长度,是可以在建库时调整的。

    如果想要得到数据是对基因组更加多的区域的覆盖,那就用插入片段为350BP这样的长的文库,这样测到的序列,在一个文库分子内部,就不太会是重复的。

    也有一些测序的目的,是要测到单个文库分子内部的长的、连续的序列,这可以做插入片段短一些的文库,比如建一个插入片段是150180BP的文库,这样中间有2050个碱基是交叠的,就可以通过生物信息学分析,得到一个更长的分子片段的序列

    2、如果是illumina双端测序,不需要两端都有index,一端有就可以了。****(****相悖****)

    3、有时候会产生Phasing:再延长时DNA聚合酶活性差,dNTP连接不上去了,越合成质量越差。有时候有的合成会很超前即Prephasing:由于dNTP3’端的叠氮基团掉了,下面的dNTP又结合上去。在测序过程中phasing 和prephasing 是限制测序循环最主要的原因。也就是说随着循环的增加,越来越多的分子“掉队”越来越多的分子“超前”,所以导致噪音信号比实际测得信号强了,这时候测序就不准了。

    4、Chastity :当出现荧光信号重叠的时候,为了证明这个荧光信号属于哪种(测其纯粹程度),通俗来讲:A比B的荧光信号强1.5倍那就说明是质量好的荧光。我们通常测前25个碱基的chastity,来判断这条链的测得荧光质量好不好。也就是pass filter即PF data,PF率。我们所说的PF率就是质量合格的reads数/总reads,也可以侧面反应测序的质量。

    5、Quality score:是判读一个碱基质量的分数,有点像黄金纯度比,Q30——99.9%(出错的可能性为千分之一),Q40——99.99%(出错的可能性为万分之一)。Q30比例是指 在所有PF数据中达到或超过Q30的数据占所有PF数据的比例。

                                       总数据
    
    图片6.png

    上述也就是将Quality Score转换成ASCII码 (也就是堆图形),并生成以下的FastQ文件。

    HiSeq工作原理

    Hiseq是高精度光学显微镜,由计算机软硬件、温控系统、显微仪器组成。其中最复杂的就是内部光学系统。

    1、tiff.文件 每次扫描完都会出现一张这样的图片,但是文件太大不易于储存。

    图片7.png

    2、BCL.光点文件

    小tips:每4个图片合成为1张图片,但在PCR文库扩增时某一碱基数量特别多,就会使计算机识别时发生困难,无法识别其他3张暗淡的两点点。解决办法是掺入人全基因组DNA中和一下或者Illumina特质的基因,使光点均匀起来。

    图片8.png

    如果客户是包有Lane和flowcell的项目,公司是会提供BCL.文件的,通过用BCL2FSTQ软件将BCL.文件转化为FASTQ.文件进行验证测序公司提供的数据是否是原始且真实的。

    相关文章

      网友评论

        本文标题:生信小组Day7—艺琳

        本文链接:https://www.haomeiwen.com/subject/uoliurtx.html