基因组简单组装

作者: 小陈生信日记 | 来源:发表于2024-08-25 09:07 被阅读0次

Bacteria genome denovo assembly
基因组survey
常用转录组组装软件集合
使用LAI 指数评估基因组组装
基因组结构注释
基因组组装教程 (T2T)
「干活」基因组组装学习笔记 - 入门知识点和Genome Su
基于参考基因组的基因组组装和注释
02-Hi-C辅助基因组安装
纯二代测序从头组装基因组

1.PacBio HiFi 长读长测序技术

长读长测序能够检测长度为1,000到20,000个碱基或更长的DNA（或RNA）片段。这些片段通常来自于“原生”分子，这些分子是直接从生物样本中提取出来进行分析的。相比之下，大多数短读长测序技术只能检测50-300个碱基长度的片段。与大多数长读长方法不同，短读长测序解决方案无法有效地对原生分子进行测序，并且在分析之前需要对提取的DNA进行扩增。

“……虽然读长通常被认为是主导因素之一……，但我们的结果表明，HiFi 技术更高的测序准确性超过了读长所带来的好处。”

长读长测序和短读长测序之间的基本差异在于所分析分子的长度，这毫不奇怪。每种方法都有其自身的优缺点，这取决于研究应用的目的。长读测序在整个基因组重建等领域表现优异，

2.基因组三代测序数据转化为ccs数据

ccs数据格式

CCS（Consensus Coding Sequence）数据是PacBio SMRT（Single Molecule, Real-Time）测序技术中的一种高质量序列数据格式。CCS数据是通过将多个独立的subreads（子读取序列）对齐并合并成一个更准确的共识序列来生成的。这种数据格式具有以下特点：

高质量：CCS序列是经过质量控制和错误校正的，因此比原始的subreads具有更高的准确性。

长读取：PacBio测序技术可以产生平均长度在10,000到20,000碱基对的长读取序列。

数据结构：CCS数据通常包含以下信息：

序列标识符（Sequence Identifier）：唯一标识序列的ID。

序列（Sequence）：核苷酸序列。

质量值（Quality Values）：每个碱基的测序质量评分，通常以Phred+33或Phred+64编码。

文件格式：CCS数据可以存储在多种文件格式中，包括：

HDF5：一种用于存储和组织大量数据的文件格式，PacBio的SMRT Analysis软件使用这种格式。

BAM：二进制比对/映射格式，是一种用于存储测序读取与参考基因组比对结果的压缩格式。

FASTA：一种简单的文本格式，用于存储核苷酸序列或蛋白质序列。

附加信息：CCS数据文件可能还会包含一些附加信息，如测序过程中的原始信号强度、分子条形码、测序孔信息等。

分析工具：PacBio提供了一系列的软件工具来处理CCS数据，包括用于生成CCS的CCSGenerator，以及用于进一步分析的SMRT Link。

应用领域：CCS数据由于其高准确度和长读取长度，常用于基因组组装、基因表达分析、甲基化分析和RNA结构研究等领域。

3.查看一下压缩的ccs文件

zcat G00101.ccs.fastq.gz | head -n 10

————————————————————————————————————

@m64270e_220111_004519/31/ccs

TTGGAGGACAATAGGAACGACGTGAGAAGTAAACAGTCTAAAAAAGGAAACTCAGGCGCTG

+

~`O~~r~~~~~ll*Y~~~~~~~~g~~j~j~~~~v~~~~~<^~~~~u~T~~~~~~j~~~~~g~~~U~~~~~~~t~v~~~.~~~}n_z~~qpc~u~6~~3~~~~H~\~~~~q~{~~\~R~~u~~~~~S~~~~~F~~~u~@U~X_Mfe~`~~~~~~l~|~+Z>~\]]~~W~s}~~~~V~~n~~|~~~p~~\~~O~~k~~r~pt~v~]~~D~~~e~+~~U~)yhl~d}~bJ@`~~~~~~~~uj~~~&<~?

————————————————————————————————————

4.利用canu组装

HIFI组装命令（canu 2.2）

canu -p asm -d G00301 genomeSize=40m useGrid=false -pacbio-hifi /ifs1/01.RawData/01.HiFi/G00301.ccs.fastq.gz

生成的组装文件在asm.contigs.fasta，另外其他可能有用的文件asm.unassembled.fasta （没有被组装好的reads），asm.report （包含了每一步的运行信息）。

CLS组装命令

canu -p ecoli -d ecoli-pacbio genomeSize=4.8m -pacbio pacbio.fastq

Nanopore

canu -p ecoli -d ecoli-oxford genomeSize=4.8m -nanopore oxford.fasta

————————————————————————————————————

使用PacBio-HiFi数据的HiCanu一致序列通常远高于99.99%，官方文档说到不鼓励对这些组件进行任何后期处理/抛光，因为重复中的mis-mapping可能会导致错误。

对于PacBio数据集，Canu一致序列通常远高于99%的一致性。纳米孔的准确度因孔和基孔的不同而不同，但对于最新的数据，准确度通常在99%以上。精确性可以通过使用专门为该任务开发的工具来提高。

Canu推荐Arrow用于PacBio，Nanopolish或Medaka用于Oxford Nanpore数据。当Illumina reads可用时，FreeBayes可用于polish either PacBio or Oxford Nanopore assemblies.

5.利用falcon组装

FALCON是PacBio公司开发的一款用于三代基因组De novo组装软件。相比于HGAP4软件，FALCON软件的基因组组装原理基本一致。但FALCON使用命令行运行，更适合于大基因组的组装，且能分析双倍体序列，并在基因组组装结果中给出包含变异位点信息的等位基因序列（alternative contigs / a-contigs）和主要的基因组序列（primary contig / p-contig）。每一条a-contig都有其对应的p-contig序列。因此，FALCON软件适合双倍体物种的基因组组装，能给出单倍的基因序列。其基因组组装结果中的p-contigs序列总长度要小于其它基因组组装软件（例如Canu和HGAP）的基因组序列。

FALCON-Unzip则是真正的单倍型组装软件，它能在FALCON或HGAP4软件的基因组组装结果基础上，利用较长的PacBio reads进行单倍型分析，对p-contigs序列向单倍型进行转换，同时输出单倍型序列（haplotig）区块。

原理

第一轮是选择种子序列或者是数据集中最长的序列(通过length_cufoff设置)，比较短的序列比对到长序列上用于产生高可信度的一致性序列。PacBio称其为预组装(pre-asembled), 其实和纠错等价。这一步可能会将种子序列在低覆盖度的区域进行分割(split)或者修整(trim)，由falcon_sense_options参数控制，最后得到preads(pre-assembled reads)。

第二轮是将preads相互比对，从而组装成contigs(contig指的是连续的不间断的基因组序列, contiguous sequence)

用conda-forge通道终于安装上了

Falcon 是一个 Python Web 框架，它不是一个独立的命令行工具，而是一个 Python 包。因此，你不能直接通过 falcon 命令来运行它。相反，你需要通过 Python 来运行 Falcon 应用程序。

网友评论

本文标题：基因组简单组装

本文链接：https://www.haomeiwen.com/subject/robocjtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

基因组简单组装

1.PacBio HiFi 长读长测序技术

2.基因组三代测序数据转化为ccs数据

ccs数据格式

3.查看一下压缩的ccs文件

4.利用canu组装

HIFI组装命令（canu 2.2）

CLS组装命令

Nanopore

5.利用falcon组装

原理

相关文章

Bacteria genome denovo assembly

基因组survey

常用转录组组装软件集合

使用LAI 指数评估基因组组装

基因组结构注释

基因组组装教程 (T2T)

「干活」基因组组装学习笔记 - 入门知识点和Genome Su

基于参考基因组的基因组组装和注释

02-Hi-C辅助基因组安装

纯二代测序从头组装基因组

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读