二代测序那些事

作者: caokai001 | 来源:发表于2020-03-22 16:49 被阅读0次

二代测序那些事
测序原理免费资源收集
二代测序基础知识
学习小组Day7--二胖
数据过滤
关于二代测序中的Duplication
学习小组Day7笔记-zkh
TCGA肠道菌群数据库
学习小组Day7
2021-09-19二代测序技术-1

illumina 二代测序: 官方文档介绍不同的测序方案

1.双端测序过程(双index 标签策略)

聊一聊最常用的二代测序那些事：转录组分析进阶 20170319-第01期-Illumina测序原理

在illumina测序过程中关键一步是将文库片段固定在flowcell上，然后通过桥式PCR将片段扩增，在被打断成300~500bp的长度的片段末端被补平后adaptor将被添加到片段两端，一方面用于将片段固定在flowcell上，同时adaptor中还包含桥式PCR所需要的引物

主要是看一下：备注：黑色区域为P7；红色区域为P5;假设P5->P7 为正向

Step1.首先结合Read1 Primer ，测DNA insert 序列

测序结果为DNA 一端的互补序列，方向：P5->P7
Step2.洗脱掉，结合i7 index Primer ，测标签i7 的index 序列

测序结果为i7 标签index 的互补序列,方向：P5->P7
Step3.桥式PCR ,利用Grafted P5 Oligo 作为Primer,测标签i5 的index序列

测序结果为i5标签的index 的互补序列，方向：P5->P7
Step4.延伸完成，再结合Read2 Primer 进行反向测序

测序结果为DNA另一端序列，方向：P7->P5

2020年3月22日00:57:21

图示如下：

Read1+i7
i5 + Read2

2020年3月22日01:27:10

2.接头污染通常在哪？ BBQ1-5答案

adapter 与 primer 区别：

adapter在中文是适配器或者接口的意思，在前面的内容中已经提到将测序序列打碎成片断后要将末端补平然后添加adapter，用于与flowcell上的oligo匹配固定并为后续桥式PCR做准备，而前面提到的Index与adapter之间的位置关系一般为adapter1-Index-fragment-adapter2，adapter2通过与oligo互补连接在flowcell上，在进行完桥式PCR之后进行测序时，添加primer，这一段primer的序列是与Index互补的而非adapter1，所以最终拿到的测序结果应该是Index+fragment+adapter2或者Index+部分fragment ：

接头adapter可能出现在那段？

从下图就可以清楚知道。以Read1 为例。当① 测的序列过长，就会测到i7 index Primer 等等，所以通常在3端。
2020年3月22日02:06:58

3.单index 和双index ： INDEX 作用

我们知道samplp index (单端index)：一条lane能测得的数据量在30G左右，而一个样品的测序量一般不会这么大，所以在建库的时候对每一种样品的接头加上不同的标签序列，这个标签就叫做Index，有了index就可以同时在一个lane中测多种数据了，后期可以根据index将数据分开 .

一个fastq 第一行内容：可以看到index 信息

image.png

某些时候我们也需要组合的双端标记：对low_input signal cell sequencing(如signal cell ChIP-seq 建库)过程中需要双端index （CDI 组合方法/UDI ）进行标记，进行区分不同细胞;对于droplet 技术，通过Barcode 进行区分就好。

如下图：DNA insert 两侧添加了i7/i5 接头，所以read 上会有index信息。

UDI 示意图

如CoBATCH 实验流程：由于Tn5 一般为8bp 序列，但做T5/T7 的barcode 只有1-2百种，不是2**8（需要满足一定条件的碱基，才可以单作barcode），需要采用的i5 /i7 的排列组合进行标记细胞。

2020年3月22日15:54:09

4. 单端和双端

目前有各种各样的seq技术，大多是建库方法不一样，测序过程绝大多数对DNA测序，单端及其双端两种。目前来看单端数据比双端价格便宜，尽量的选择双端测序，想想测序就是为了进行比对，单双端比对差异可以理解成：

双端：一个fragment 分成前后两段，分别进行比对，再1判断两段比对位置间距是不是在合理的范围。
单端：直接进行搜索最可能的位置，这样正确性是不是没有双端高吧。

RNA-seq几乎都是双端测序，去除小RNA（数据长度比较短，单端就可以测通）；ChIP-seq 对DNA 进行比对，不存在可变剪切问题，单端数据应该是可以的，一般来说序列长度大于30bp 就可以比较精确度定位到human 基因组了。

5.测序建库中Tn5 是什么？ rTn5转座酶

rTn5转座酶是野生型Tn5转座酶的高活性突变体，可以高效的将Tn5转座子插入到目标序列。Tn5转座酶识别Tn5转座子酶序列的内端（insideend，IE）、外端（outsideend，OE）和嵌合端（mosaicend，ME）序列，含有ME序列片段的体外转座效率最高。rTn5转座酶的插入位点具有很高的随机性，因此被广泛的用于体外转基因（外源基因整合到宿主细胞）和二代测序建库等领域。

image.png

体外转基因操作

rTn5转座酶可以将含有成对识别序列的双链DNA片段（如下图所示）随机整合到宿主细胞的基因组中。整合的过程分为两步：首先，rTn5转座酶同含有选择标记和识别序列的目标基因片段结合，形成转座体（Transposome）；之后，通过转化的方式将转座体导入宿主细胞，利用选择标记筛选成功整合目标基因的宿主细胞。

image.png

    当识别序列为ME接头时：5 ́-CTGTCTCTTATACACATCT-选择标记-目标基因-AGATGTGTATAAGAGACAG-3 ́，要求该序列为双链片段（可以通过PCR等方法获得）。

二代建库测序 Illumina 平台二代测序文库构建原理简介

En-Tz5转座酶在体内或体外，通过在靶DNA上产生一个9个碱基的序列的缺口，然后将转座子DNA的5´-末端连接到缺口DNA的3´-末端来起始插入过程。9个碱基的缺口随后被宿主细胞的DNA聚合酶(或Klenow片段)补平，从而在插入位点两端形成9个碱基的正向重复。这种插入是高度稳定的，通常不能用转座酶直接反转。

“mosaic” end‐recognition sequence （ME序列）是需要插入的序列.P5->P7 方向~
- Tn5 建库流程：
  
  Tn5 转座酶和19bp的ME序列（含有测序的adapter）组成转座酶复合物.

2020年3月22日13:39:18

从序列的角度部分：

使用Nextera XT样品制备试剂盒进行cDNA的片段化和标签标记，试剂盒的标记反应利用Tn5的特性把cDNA打断的同时，把s5 s7整合到打断后的cDNA片段上

image.png

当 s5 s7在片段的两端，在后续步骤能够被有效扩增 .

image.png

两个具体的测序运用

1.单细胞RNA-seq测序

samrt-seq2 与10 x 建库测序差别

当下应用最火热的是10X Genomics公司的解决方案

10x genomics 建库测序：
- gel beads: 凝胶微珠
- 10x Barcode：为了区分不同细胞的标签；400万barcode,16个碱基长度
- UMI:一个随机序列，10个碱基，为了避免PCR扩增偏差，通过UMI对每一个DNA 片段进行标记。
- Poly(dT)N ：当扩增引物，进行扩增。
2020年3月21日22:02:21
加上接头P5,P7，进行建库测序.
2020年3月21日22:09:50

10x genomes 有10万个barcode,一般一个细胞存在1个barcode.通过barcode 进行拆封read，也存在一个barcode 对应了多个细胞，最好少于1万个细胞。也可以进行跨物种分析，查看collusion 比例。10X分析单细胞表达

一个细胞大约有40000-80000个UMI,平均一个基因有10个UMI,进而进行分析.

2020年3月21日21:17:36

smart-seq2建库：解析单细胞RNA-Seq Nature文章单细胞建库单细胞smart-seq2建库原理

意义：某些特殊或者少量细胞样本的单细胞转录组研究中，Smart-seq2技术还是一项研究利器

难点：PCR 扩增很多倍，如何均匀的扩增；如何提取mRNA ,而不含有rRNA.

要点：PCR扩增效率和引物序列有关系，smart-seq 采用相同的引物，保证扩增效率，减少PCR偏差；最新的方法，用的Tn5加接头，不同I5、I7 Index组合使其能够进行多样品混合测序。

步骤：
- Oligo(dT) primer 含有特殊引物，刚好结合到ployA位置
- 用MMLV逆转录酶，在DNA 3‘ 位置添加3个CCC.
- 上有引物含有rnaGGG,可以与CCC 互补配对，利用MMLV酶进行扩增
- 得到双链的cDNA 引物，并且两端含有人工设计的PCR引物，进行常规的PCR扩增，就可以打断建库测序，上机。（现在改进了方法，不需要进行打断，直接进行Tn5加接头,提高建库效率）

image.png

分析测序接头问题：Tn5 需要了解的知识

加入文库PCR引物进行文库扩增

加入N/S5xx and N7xx index引物对上一步标签化的文库进行扩增

image.png

最终上机测序文库组成

image.png

具体接头和引物序列如下：

oligo-dTV

5'- AAGCAGTGGTATCAACGCAGAGTACTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTVN -3'

Template Switching Oligo (TSO)

5'- AAGCAGTGGTATCAACGCAGAGTACATrGrG+G -3'

ISPCR

5′- AAGCAGTGGTATCAACGCAGAGT -3′

Nextera Tn5 binding site (19-bp Mosaic End (ME))

5'- AGATGTGTATAAGAGACAG -3'

Nextera N/S5xx primer entry point (s5)

5'- TCGTCGGCAGCGTC -3'

Nextera N7xx primer entry point (s7)

5'- GTCTCGTGGGCTCGG -3'

Illumina P5 adapter

5'- AATGATACGGCGACCACCGAGATCTACAC -3'

Illumina P7 adapter

5'- *CAAGCAGAAGACGGCATACGAGAT* -3'

Nextera (XT) N/S5xx Index primer

5'- AATGATACGGCGACCACCGAGATCTACAC[8-bp i5 index]TCGTCGGCAGCGTC -3'

Nextera (XT) N7xx Index primer

5'- *CAAGCAGAAGACGGCATACGAGAT*[8-bp i7 index]GTCTCGTGGGCTCGG -3'

Read 1 sequencing primer

5'- TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG -3'

Index 1 sequencing primer

5'- CTGTCTCTTATACACATCTCCGAGCCCACGAGAC -3'

Read 2 sequencing primer

5'- GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG -3'

8-bp i5 & i7 序列

N/S502 : CTCTCTAT
N/S503 : TATCCTCT
N/S505 : GTAAGGAG
N/S506 : ACTGCATA
N/S507 : AAGGAGTA
N/S508 : CTAAGCCT
N/S510 : CGTCTAAT
N/S511 : TCTCTCCG
N/S513 : TCGACTAG
N/S515 : TTCTAGCT
N/S516 : CCTAGAGT
N/S517 : GCGTAAGA
N/S518 : CTATTAAG
N/S520 : AAGGCTAT
N/S521 : GAGCCTTA
N/S522 : TTATGCGA

N701 : TCGCCTTA
N702 : CTAGTACG
N703 : TTCTGCCT
N704 : GCTCAGGA
N705 : AGGAGTCC
N706 : CATGCCTA
N707 : GTAGAGAG
N710 : CAGCCTCG
N711 : TGCCTCTT
N712 : TCCTCTAC
N714 : TCATGAGC
N715 : CCTGAGAT
N716 : TAGCGAGT
N718 : GTAGCTCC
N719 : TACTACGC
N720 : AGGCTCCG
N721 : GCAGCGTA
N722 : CTGCGCAT
N723 : GAGCGCTA
N724 : CGCTCAGT
N726 : GTCTTAGG
N727 : ACTGATCG
N728 : TAGCTGCA
N729 : GACGTCGA

总结：从Read 1 sequencing primer 可以知道，测序的引物为s5+ME ,所以和普通的Truseq RNA-seq结果是一样的，fastqc 去检测接头.trim接头(Nextera接头)

image.png

2.单细胞ChIP-seq测序（scit-ChIP文章 )

scit-ChIP-Seq 建库策略： Truseq library preparation method for low-input and single-cell itChIP.

实验流程：T5,T7 进行组合，对细胞进行标记

流程

序列上变化：

2020年3月22日15:52:12

a, Overview of the design of mosaic Truseq library preparation for a sequencing using Illumina’s standard recipe. T5 and T7 barcodes are introduced during barcoded Tn5 tagmentation to distinguish between single cells. PCR indexes are introduced during the 2nd PCR to separate itChIP libraries. The resulting libraries are sequenced by PE150 on Novaseq 6000 or Hiseq X-Ten platforms (Illumina). nt, nucleotides

意思说：通过Tn5 进行加入标签来区分不同细胞；再通过1st PCR 加入序列扩增引物；再通过2st PCR 加入测序接头: (有没有发现和smart-seq2 P5/P7 接头序列非常相似，可能illumia测序都用的这种测序接头)

P5( 5'- AATGATACGGCGACCACCGAGATCT -3' )

P7( 5'- CAAGCAGAAGACGGCATACGAGAT -3' ),

PCR index(和普通的建库index一样可能，单index 用于标记lane中多个文库；而不是用单index 区分细胞)

总结：有图示可以看出，测到的序列包括T5-barcode, DNA insert ,T7-barcode,后续分析需要去除barcode 进行比对。

二代测序那些事
illumina 二代测序: 官方文档介绍不同的测序方案 1.双端测序过程(双index 标签策略) 聊一聊最常...
测序原理免费资源收集
一代测序 Sanger 测序二代测序 Illumina测序HiSeq工作原理二代测序原理及fastq数据三代测...
二代测序基础知识
二代测序基础知识二代测序基础概念（这个是与二代测序相关每个部门都要掌握的） FQ数据格式高通量测序(如Ill...
学习小组Day7--二胖
测序知识一代测序flow 二代测序flow
数据过滤
二代测序数据过滤 1.基因测序技术 2.二代测序比较 3.测序通用流程 4.测序数据错误（针对每项过滤） 5.测序...
关于二代测序中的Duplication
关于Duplicate 在二代测序中的定义： Duplicate ，字面意思是重复，在二代测序中，特指测序得到的r...
学习小组Day7笔记-zkh
测序 Sanger测序 ddNTP测序读长长（1000bp），准确通量低二代测序 PE（Pair End双端） ...
TCGA肠道菌群数据库
我们知道TCGA数据库包括很多患者的二代测序的数据。关于二代测序。之前我们就介绍过，其实二代测序的数据是是一部分所...
学习小组Day7
测序知识测序原理一代测序 sanger法这里就不多说了二代测序边合成边测序名词① flowcell：反应...
2021-09-19二代测序技术-1
第二代测序技术又称为下一代测序（NGS），与第一代相比主要是1.高通量测序2.边合成边测序。回顾二代测序的发展史1...