利用二代测序比三代测序碱基质量值更高的特点,对三代数据组装结果进行polish。 但是不能简单根据比对BAM文件来矫正。这里作者把 HiFI数据重新比对回基因组,计算哪些位点可能有错误。抽出潜在错误位点附近的kmer,判断它是否在二代数据kmer中,在保留。否则去除。
基于Reads 的kmer ,计算Reads和Reads之间权重,使用聚类算法聚类(理想情况下,二倍体被聚成两类,代表父本或者母本),判断组装结果是父本还是母本,然后使用父本或者母本的数据进行矫正。
利用二代测序比三代测序碱基质量值更高的特点,对三代数据组装结果进行polish。 但是不能简单根据比对BAM文件来矫正。这里作者把 HiFI数据重新比对回基因组,计算哪些位点可能有错误。抽出潜在错误位点附近的kmer,判断它是否在二代数据kmer中,在保留。否则去除。
基于Reads 的kmer ,计算Reads和Reads之间权重,使用聚类算法聚类(理想情况下,二倍体被聚成两类,代表父本或者母本),判断组装结果是父本还是母本,然后使用父本或者母本的数据进行矫正。
本文标题:NextPolish2:一种针对HiFi数据组装的基因组碱基矫正
本文链接:https://www.haomeiwen.com/subject/vmkkxjtx.html
网友评论