hifiasm（高质量组装PicBio HiFi数据，同样也是可

作者: GenomeStudy | 来源:发表于2023-07-29 13:42 被阅读0次

用hifiasm组装基因组
hifiasm对HiFi PacBio进行组装
HIFISAM 组装
hifiasm软件安装与使用
hifiasm组装
Hifiasm-meta | 你没看错！基于宏基因组的完成图！！
微刊：Pacbio-Hifi宏基因组文献导读
文献解析-HiFi测序组装苹果单倍型基因组
HiFi Reads基因组组装：快、准、狠
利用masurca进行混合二、三代测序数据基因组组装

hifiasm

如果你基因组是简单的二倍体，不复杂，不是高重复或者高杂合，测序数据还是PicBio HiFi数据，选择hifiasm进行组装是个不错的选择，对于处理PicBio HiFi数据，hifiasm有快、准、质量高的特点，还能分单倍型！

整体的流程

hifiasm.png

1.从安装开始说起

# Install hifiasm (requiring g++ and zlib)
git clone https://github.com/chhylp123/hifiasm
cd hifiasm && make

记得添加环境变量就可以直接调用了。

2.使用(有多种模式可选择，提供三种常用模式)

1)在只有PicBio HiFi数据的情况下，也是最简单的

# Assemble inbred/homozygous genomes (-l0 disables duplication purging)
hifiasm -o CHM13.asm -t32 -l0 CHM13-HiFi.fa.gz 2> CHM13.asm.log
# Assemble heterozygous genomes with built-in duplication purging
hifiasm -o HG002.asm -t32 HG002-file1.fq.gz HG002-file2.fq.gz
-o  输出文件的前缀
-t  运行程序设置的线程
-l0  不进行purge 
CHM13-HiFi.fa.gz  hifi数据

模式不同，输出文件的后缀也会有所不同
在这个模式下输出的文件以前缀.bp.后缀的形式输出。

#用awk转化gfa格式为fa格式，即得到组装的contig文件
#主文件
awk '/^S/{print ">"$2;print $3}' prefix.bp.p_ctg.gfa >prefix.bp.p_ctg.fa 2>2.log
#hap1文件，一型文件
awk '/^S/{print ">"$2;print $3}' prefix..bp.hap1.p_ctg.gfa > prefix..bp.hap1.p_ctg.fa 2>2.log
#hap2文件，二型文件
awk '/^S/{print ">"$2;print $3}' prefix..bp.hap2.p_ctg.gfa > prefix.bp.hap2.p_ctg.fa 2>2.log

2)有PicBio HiFi数据和HiC数据的情况

# Hi-C phasing with paired-end short reads in two FASTQ files
hifiasm -o HG002.asm --h1 read1.fq.gz --h2 read2.fq.gz HG002-HiFi.fq.gz
-h1  HiC一端的数据 
-h2  HiC另一端的数据

在这个模式下输出的文件以前缀.hic.后缀的形式输出

#同样的，用awk进行格式的转换
awk '/^S/{print ">"$2;print $3}' prefix.hic.p_ctg.gfa >prefix.hic.p_ctg.fa 2>2.log

3)有PicBio HiFi数据、HiC数据和ONT数据的情况，也是最容易达到T2T级别组装的模式

# Single-sample telomere-to-telomere assembly with HiFi, ultralong and Hi-C reads
hifiasm -o HG002.asm --h1 read1.fq.gz --h2 read2.fq.gz --ul ul.fq.gz HG002-HiFi.fq.gz
--ul  ONT测序数据

3.还有其他复杂的参数，可以去学习，简单说几个

--hom-cov

--hom-cov    INT    homozygous read coverage [auto]

这个参数的使用，首先是你的基因组是一个杂合或者高重复的基因组，在进行上述的组装后，得到的组装结果比实际的偏大，或者分型结果，即hap1和hap2的结果相差较大。你可以看看日志文件，即*.log文件。在log文件中有一行[M::purge_dups] homozygous read coverage threshold: X.的描述，这个X的值即可设置为--hom-cov X

-s

 -s FLOAT     similarity threshold for duplicate haplotigs in read-level [0.75 for -l1/-l2, 0.55 for -l3]

这个参数的使用，和--hom-cov类似，在你得到的组装结果比实际的偏大的情况下，可以调整-s,程序默认为0.5,偏大的情况下可以往下调。

-n-hap

 --n-hap      INT      number of haplotypes [2]

这个参数可以调整你需要分型的个数，即如果是四倍体材料，就有4个单倍型的基因组，可以试试--n-hap 4,反正我组装三倍体的材料，设置了--n-hap 3并没有成功。

--hg-size

--hg-size    INT(k, m or g)    estimated haploid genome size used for inferring read coverage [auto]

这个参数可以输入，预估的基因组大小，例如:--hg-size 500m

大多数的情况下，用默认的参数就是足够了的。

参考连接

https://hifiasm.readthedocs.io/en/latest/index.html
https://github.com/chhylp123/hifiasm

网友评论

本文标题：hifiasm（高质量组装PicBio HiFi数据，同样也是可

本文链接：https://www.haomeiwen.com/subject/jvfjpdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

hifiasm（高质量组装PicBio HiFi数据，同样也是可

hifiasm

整体的流程

1.从安装开始说起

2.使用(有多种模式可选择，提供三种常用模式)

1)在只有PicBio HiFi数据的情况下，也是最简单的

2)有PicBio HiFi数据和HiC数据的情况

3)有PicBio HiFi数据、HiC数据和ONT数据的情况，也是最容易达到T2T级别组装的模式

3.还有其他复杂的参数，可以去学习，简单说几个

--hom-cov

-s

-n-hap

--hg-size

大多数的情况下，用默认的参数就是足够了的。

参考连接

相关文章

用hifiasm组装基因组

hifiasm对HiFi PacBio进行组装

HIFISAM 组装

hifiasm软件安装与使用

hifiasm组装

Hifiasm-meta | 你没看错！基于宏基因组的完成图！！

微刊：Pacbio-Hifi宏基因组文献导读

文献解析-HiFi测序组装苹果单倍型基因组

HiFi Reads基因组组装：快、准、狠

利用masurca进行混合二、三代测序数据基因组组装

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读