美文网首页
基因组简单组装

基因组简单组装

作者: 小陈生信日记 | 来源:发表于2024-08-25 09:07 被阅读0次

1.PacBio HiFi 长读长测序技术

长读长测序能够检测长度为1,000到20,000个碱基或更长的DNA(或RNA)片段。这些片段通常来自于“原生”分子,这些分子是直接从生物样本中提取出来进行分析的。相比之下,大多数短读长测序技术只能检测50-300个碱基长度的片段。与大多数长读长方法不同,短读长测序解决方案无法有效地对原生分子进行测序,并且在分析之前需要对提取的DNA进行扩增。

“……虽然读长通常被认为是主导因素之一……,但我们的结果表明,HiFi 技术更高的测序准确性超过了读长所带来的好处。”

长读长测序和短读长测序之间的基本差异在于所分析分子的长度,这毫不奇怪。每种方法都有其自身的优缺点,这取决于研究应用的目的。长读测序在整个基因组重建等领域表现优异,

2.基因组三代测序数据转化为ccs数据

ccs数据格式

CCS(Consensus Coding Sequence)数据是PacBio SMRT(Single Molecule, Real-Time)测序技术中的一种高质量序列数据格式。CCS数据是通过将多个独立的subreads(子读取序列)对齐并合并成一个更准确的共识序列来生成的。这种数据格式具有以下特点:

高质量:CCS序列是经过质量控制和错误校正的,因此比原始的subreads具有更高的准确性。

长读取:PacBio测序技术可以产生平均长度在10,000到20,000碱基对的长读取序列。

数据结构:CCS数据通常包含以下信息:

序列标识符(Sequence Identifier):唯一标识序列的ID。

序列(Sequence):核苷酸序列。

质量值(Quality Values):每个碱基的测序质量评分,通常以Phred+33或Phred+64编码。

文件格式:CCS数据可以存储在多种文件格式中,包括:

HDF5:一种用于存储和组织大量数据的文件格式,PacBio的SMRT Analysis软件使用这种格式。

BAM:二进制比对/映射格式,是一种用于存储测序读取与参考基因组比对结果的压缩格式。

FASTA:一种简单的文本格式,用于存储核苷酸序列或蛋白质序列。

附加信息:CCS数据文件可能还会包含一些附加信息,如测序过程中的原始信号强度、分子条形码、测序孔信息等。

分析工具:PacBio提供了一系列的软件工具来处理CCS数据,包括用于生成CCS的CCSGenerator,以及用于进一步分析的SMRT Link。

应用领域:CCS数据由于其高准确度和长读取长度,常用于基因组组装、基因表达分析、甲基化分析和RNA结构研究等领域。

3.查看一下压缩的ccs文件

zcat G00101.ccs.fastq.gz | head -n 10

————————————————————————————————————

@m64270e_220111_004519/31/ccs

TTGGAGGACAATAGGAACGACGTGAGAAGTAAACAGTCTAAAAAAGGAAACTCAGGCGCTG 

~`O~~r~~~~~ll*Y~~~~~~~~g~~j~j~~~~v~~~~~<^~~~~u~T~~~~~~j~~~~~g~~~U~~~~~~~t~v~~~.~~~}n_z~~qpc~u~6~~3~~~~H~\~~~~q~{~~\~R~~u~~~~~S~~~~~F~~~u~@U~X_Mfe~`~~~~~~l~|~+Z>~\]]~~W~s}~~~~V~~n~~|~~~p~~\~~O~~k~~r~pt~v~]~~D~~~e~+~~U~)yhl~d}~bJ@`~~~~~~~~uj~~~&<~?

————————————————————————————————————

4.利用canu组装

HIFI组装命令(canu 2.2)

canu -p asm -d G00301 genomeSize=40m useGrid=false -pacbio-hifi /ifs1/01.RawData/01.HiFi/G00301.ccs.fastq.gz

  生成的组装文件在asm.contigs.fasta,另外其他可能有用的文件asm.unassembled.fasta (没有被组装好的reads),asm.report  (包含了每一步的运行信息)。

CLS组装命令

canu -p ecoli -d ecoli-pacbio genomeSize=4.8m -pacbio pacbio.fastq

Nanopore

canu -p ecoli -d ecoli-oxford genomeSize=4.8m -nanopore oxford.fasta

————————————————————————————————————

       使用PacBio-HiFi数据的HiCanu一致序列通常远高于99.99%,官方文档说到不鼓励对这些组件进行任何后期处理/抛光,因为重复中的mis-mapping可能会导致错误。

       对于PacBio数据集,Canu一致序列通常远高于99%的一致性。纳米孔的准确度因孔和基孔的不同而不同,但对于最新的数据,准确度通常在99%以上。精确性可以通过使用专门为该任务开发的工具来提高。

       Canu推荐Arrow用于PacBio,Nanopolish或Medaka用于Oxford Nanpore数据。当Illumina reads可用时,FreeBayes可用于polish either PacBio or Oxford Nanopore assemblies.

5.利用falcon组装

       FALCON是PacBio公司开发的一款用于三代基因组De novo组装软件。相比于HGAP4软件,FALCON软件的基因组组装原理基本一致。但FALCON使用命令行运行,更适合于大基因组的组装,且能分析双倍体序列,并在基因组组装结果中给出包含变异位点信息的等位基因序列(alternative contigs / a-contigs)和主要的基因组序列(primary contig / p-contig)。每一条a-contig都有其对应的p-contig序列。因此,FALCON软件适合双倍体物种的基因组组装,能给出单倍的基因序列。其基因组组装结果中的p-contigs序列总长度要小于其它基因组组装软件(例如Canu和HGAP)的基因组序列。

       FALCON-Unzip则是真正的单倍型组装软件,它能在FALCON或HGAP4软件的基因组组装结果基础上,利用较长的PacBio reads进行单倍型分析,对p-contigs序列向单倍型进行转换,同时输出单倍型序列(haplotig)区块。

原理

        第一轮是选择种子序列或者是数据集中最长的序列(通过length_cufoff设置),比较短的序列比对到长序列上用于产生高可信度的一致性序列。PacBio称其为预组装(pre-asembled), 其实和纠错等价。这一步可能会将种子序列在低覆盖度的区域进行分割(split)或者修整(trim),由falcon_sense_options参数控制,最后得到preads(pre-assembled reads)。

       第二轮是将preads相互比对,从而组装成contigs(contig指的是连续的不间断的基因组序列, contiguous sequence)

用conda-forge通道终于安装上了

Falcon 是一个 Python Web 框架,它不是一个独立的命令行工具,而是一个 Python 包。因此,你不能直接通过 falcon 命令来运行它。相反,你需要通过 Python 来运行 Falcon 应用程序。

相关文章

  • Bacteria genome denovo assembly

    细菌基因组组装金标准:GAGE-B 组装软件的选择 细菌基因组组装的目标不同于大型生物基因组的组装,大型基因组组装...

  • 基因组survey

    基因组survey 在组装基因组之前一定要先对要组装的物种有一个大致的了解,判断其复杂程度, 标准如下 简单基因组...

  • 常用转录组组装软件集合

    转录组组装软件 基因组组装 基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列...

  • 使用LAI 指数评估基因组组装

    基因组组装完成后,可通过N50或者BUSCO,以及LAI评估组装质量。本文就LAI方法做一简单介绍。 基因组中的重...

  • 基因组结构注释

    1. 组装基因组质控 得到组装好的基因组序列之后,首先要使用多种方法评估组装质量。这里用到2款可用于基因组组装质量...

  • 基因组 组装教程 (T2T)

    导读 本文将介绍T2T基因组,并提供一份基因组组装的资料,其中包含:基因组组装数据和组装策略介绍;染色体水平基因组...

  • 「干活」基因组组装 学习笔记 - 入门知识点和Genome Su

    基因组组装学习笔记(一) 基因组组装的前期工作:需要掌握什么知识点? 1)基因组大小 / genome size:...

  • 基于参考基因组的基因组组装和注释

    将基因组组装到染色体水平无非就是两种方式: 独立组装(de novo); 基于参考基因组的组装(reference...

  • 02-Hi-C辅助基因组安装

    基因组组装 基因组是怎么组装的,目前的方法有什么局限性?为什么要进行基因组组装?是因为目前的测序方法,无论是一代、...

  • 纯二代测序从头组装基因组

    基因组组装 基因组组装一般分为三个层次,contig, scaffold和chromosomes. contig表...

网友评论

      本文标题:基因组简单组装

      本文链接:https://www.haomeiwen.com/subject/robocjtx.html