美文网首页
【基因组】组装及原理

【基因组】组装及原理

作者: 鸦言 | 来源:发表于2023-02-20 21:40 被阅读0次

    sequence assembly

    1. DNA测序技术

    第一代:sanger

    第二代:高通量 illumina, 454测序,等

    2.5代:lon torrent/proton 测序

    第三代:pacbio

    2.mate-pair(大长度) 文库的构建

    ≥2k 片段→加接头→环化→打断→短片段→回收带标记的片段对较短的片段进行测序

    3. 各测序平台特性

    Illumina

    reads:49-300bp
    错误率 1%左右,3‘端会高一点
    pair-end文库(170-40kb)

    数据格式 4行:(fastq)

    1. reads id,@开头
    2. 序列信息,N代表不确定
    3. 质量值的id,一般和 reads 的 id 相同
    4. 质量值的信息(ASCII 码-64 = 质量值)

    成对的 reads 对应的行号是一样的。

    454

    reads:700bp(peak),平均 500
    error and indel 错误
    pair-end 1kb-20kb

    数据格式:

    1. 序列信息:fasta格式,> 开头 id
    2. 质量信息:存放于另一个文件中,> 号开头,直接用数值表示

    4. 组装的基本思路

    策略1:

    分级组装:人类基因组
    缺点:实验环节较慢,需要图谱,消耗高
    优点:算法简单,质量高

    策略2:

    鸟枪法(whole-genome shotgun):
    优点:实验简单,花费低
    缺点:计算能力要求,质量低

    5. 基本概念

    overlap:重合部分
    contig:组装的初级序列
    pair-end:中间有未知的区域
    scaffold:

    6. 基因组大小的估计

    流式细胞仪

    Kmer 分析

    根据近源物种估计,得到基础值,得到一些测序数据,利用Kmer估计

    1. 泊松分布 poisson distribution

    测序深度:基因组中每个碱基被测序的频率。一般情况下,个体测序:30 层

    假设基因组大小为G,随机测序,read 的长度为L,当生成一个read 的时候,一个固定碱基被测到的概率是 L/G, reads 的总量为n_r.

    L/G 非常小,而 n_r 非常大,每个碱基被测到的频率的期望:
    d_n = L/G * n_r
    它服从泊松分布(n 很大而 p 很小的二项分布)。

    Kmer:固定长度的核苷酸序列,奇数(避免正反链一致,中间的肯定不一样)

    假设基因组中 K 是独一无二的,则 G 大小的基因组中的 Kmer 的数量也为G,reads 的长度为 L,则一个固定的 Kmer 被测到的概率为(L- K + 1)/G(因为L上可以有L-K+1个Kmer)。

    L-K+1/G 很小,而 n_r 非常大,每个Kmer被测到的频率的期望和总个数:
    d_k = (L-K+1)/G * n_r
    n_k = (L-K+1) * n_r
    可推导出:
    G = n_k/d_k
    d_n/d_k = L/(L-K+1)

    image.png

    图片为,reads为100时,Kmer长度为25,在d_n 为 40时, d_k 为30.4。
    100/(100-25+1) * 40 = 30.4
    基因组大小 G = n_k/d_k

    7. Kmer 的其他应用

    下图为一个比较简单的基因组的Kmer分布

    image.png

    下面较复杂:

    最前面:测序错误造成。
    两个峰值:一个峰高,一个峰低(高杂合基因组造成,深度正好差一倍)。
    尾部:由于重复片段造成的。


    image.png

    下面:

    同样两个峰,80处有个小峰,基因组带有高重复率,但是杂合度不高。


    image.png

    Kmer在组装上的应用

    组装基于 Kmer 而非 reads

    长度为17的Kmer,相邻有16bp是相同的。

    read 上的Kmer数: L-K+1

    8. 基于二代测序结果的组装

    一些名词:

    image.png

    Illumina

    原理:根据Kmer(Kmer 图)

    软件:SOAPdenovo(华大)、velvet ABySS、ALLPATH-LG

    以SOAPdenovo为例:

    1. 构建图(De bruijn graph)


      image.png

      中间的数字显示出现的次数


      image.png
    2. 简化图,并获得contigs
      去掉低频kmer链接(测序错误造成的)
      利用各种方法去掉其他的错误
      最终使 reads 连接成为 contigs
    3. 将 pair-end mapping 到 contigs 上
      a. 将pair-end 定位到 contigs(完整的序列(长于Kmer),存在于reads和contig上)
      b. 测序方向的问题。
      c. 估计gap的大小,用 N 填充。
    4. 构建 scaffolds
    5. pair-end 中间 gap 的填充(延伸contig)
      a. 利用pair-end 的数据
      b. 长reads可以跨过洞

    sanger/454测序

    方法:overlap-layout-consensus

    代表软件:Newber、Celera、Phrap

    高杂合基因组

    fosmid 文库 + 鸟枪法(牡蛎为例),花费高,周期长
    BAC克隆(华大) + 鸟枪法,花费高,周期长
    Ultra-Deep de novo,高深度测序 (下一节),花费少,效果差,周期短

    9. 高深度测序原理及方法

    利用Kmer分布图(峰),识别出 unique Kmer 和 repeat Kmer

    image.png

    10. 影响组装的因素

    1. 测序错误

    N太多(超过 10%,5%,3%,视数据多少而定),去掉

    测序质量

    接头序列,reads和接头比对

    小的 insert size

    去除 PCR duplication

    测序错误引起的问题

    Kmer 峰的前移

    纠正
    包含错误位点的Kmer出现的频率低,识别出,一次替换为其他三个碱基,直至Kmer的出现频率变高。

    为了不人为改变造成错误,一般一个reads只改一个

    先纠错 再进行 contigs 的组装

    2. 重复序列

    N50和N90 推测影响

    3. 杂合

    N50和N90 推测影响

    如果杂合度超过千分之5,就要考虑是否考虑 高深度测序等。

    11. 辅助组装的技术

    1. Fosmid-end/ BAC-end
    2. 遗传图谱和物理图谱
    3. optical mapping,酶切,获得片段长度,辅助组装
    4. The Irys System (BioNano),密度高
      可以侦测 gap 的大小及错误的插入

    尽量将组装结果,连接到假染色体上。

    12. 评价基因组

    基于长度

    N50:contigs从长到短排序,累加到总长50及以上是,那个conig的长度。
    N90:同理

    genome 的覆盖度(80%以上)

    基于准确度

    与EST 或 转录组数据 比对
    golden standard (比如 fosmid 等)
    同源方法,与同源物种或模式生物比较基因模式

    GC 深度和 测序深度的分析

    下图,红圈部分,可能是y染色体


    image.png

    下图,红圈部分,左右两端的小圈区域,GC高的部分可能是细菌污染(可以过滤掉相关reads)


    image.png image.png

    gap 可能的产生原因:repeat 造成的深度高

    基因颠倒,证明是否正确

    基因结构预测,与近源物种比较

    13 SOAPdenovo 组装流程

    1. 下机数据准备

    后有index,用于区分样品

    质量值:Q = -10 log10P,ASCII码,减64
    PE(pair-end) reads:成对的reads(paired-end reads 和 mate-pair reads)
    SE(single-end) reads

    2. 过滤,数据质控

    Q20,占全部碱基的80以上。

    过滤 adaptor:fastq转化为fasta,利用nucmer将接头序列与reads相比较,过滤掉adaptor(SOAPfilter)

    过滤低质量的reads:

    N 占太多的 过滤掉(10%)

    过滤掉 small insert 的 reads

    两端的碱基准确率可能较低(两个reads,A,T不相等),可以剪掉

    3. 下机数据纠错

    KmerFraq_AR_ 软件
    -K 设置成17,可以估计出小于16G的基因组
    关注最后一个文件,标记各种kmer选项。

    4. 基因组大小和杂合度的估计

    需要软件
    命令:./KmerFreq_AR_v2.0 -k 17 -t 4 -p species fq.lst

    5. SOAPdenovo

    配制文件,格式在官网上有介绍

    avg_ins: 插入片段的长度

    reverse_seq:是否环化,0 或 1

    ... ...

    6. SOAPaligner

    相关文章

      网友评论

          本文标题:【基因组】组装及原理

          本文链接:https://www.haomeiwen.com/subject/uwedcktx.html