美文网首页
minimap2参数详解

minimap2参数详解

作者: GenomeStudy | 来源:发表于2023-06-27 09:06 被阅读0次

minimap2是我们在基因组分析过程常用的一种工具,但是它的参数很多很复杂,现在我将各项参数的内容和用法进行解析。

Indexing:
  -H: 使用同源聚合的k-mer(适用于PacBio数据)
  -k INT: k-mer的大小(不超过28)[默认值:15]
  -w INT: minimizer窗口大小 [默认值:10]
  -I NUM: 每个~NUM输入碱基分割索引 [默认值:4G]
  -d FILE: 将索引转储到文件中 []

Mapping:
  -f FLOAT: 过滤掉顶部FLOAT比例的重复minimizer [默认值:0.0002]
  -g NUM: 如果在INT-bp内没有minimizer,则停止链条延伸 [默认值:5000]
  -G NUM: 最大内含子长度(在-xsplice模式下有效;更改-r)[默认值:200k]
  -F NUM: 最大片段长度(在-xsr模式下有效或片段模式中)[默认值:800]
  -r NUM[,NUM]: 链接/比对带宽和长连接带宽 [默认值:500,20000]
  -n INT: 在链条上的最小minimizer数量 [默认值:3]
  -m INT: 最小链接分数(匹配碱基减去对数缺口惩罚)[默认值:40]
  -X: 跳过自身和双重比对(用于全对全模式)
  -p FLOAT: 次要比对分数与主要比对分数的最小比例 [默认值:0.8]
  -N INT: 最多保留INT个次要比对 [默认值:5]

Alignment:
  -A INT: 匹配得分 [默认值:2]
  -B INT: 不匹配的惩罚 [默认值:4]
  -O INT[,INT]: 缺口开启惩罚 [默认值:4,24]
  -E INT[,INT]: 缺口扩展惩罚;k个长缺口的成本是min{O1+kE1,O2+kE2} [默认值:2,1]
  -z INT[,INT]: Z-drop得分和反转Z-drop得分 [默认值:400,200]
  -s INT: 最小峰值DP比对得分 [默认值:80]
  -u CHAR: 如何找到GT-AG。f:转录本链,b:两条链,n:不匹配GT-AG [默认值:n]

Input/Output:
  -a: 以SAM格式输出(默认为PAF)
  -o FILE: 将比对结果输出到FILE中 [默认值:stdout]
  -L: 在CG标签中写入具有>65535个操作的CIGAR
  -R STR: SAM读组行,格式如'@RG\tID:foo\tSM:bar' []
  -c: 在PAF中输出CIGAR
  --cs[=STR]: 输出cs标签;STR为'short'(如果省略)或'long' [默认值:none]
  --MD: 输出MD标签
  --eqx: 写入=/X CIGAR操作符
  -Y: 对于补充比对,使用软剪辑
  -t INT: 线程数 [默认值:3]
  -K NUM: 映射的迷你批次大小 [默认值:500M]
  --version: 显示版本号

Preset:
-x STR: 预设选项(总是在其他选项之前应用;详见minimap2.1)[]
  -map-pb/map-ont: PacBio CLR/Nanopore vs 参考基因组比对
  -map-hifi: PacBio HiFi reads vs 参考基因组比对
  -ava-pb/ava-ont: PacBio/Nanopore读取重叠
  -asm5/asm10/asm20: asm-to-ref比对,适用于约0.1/1/5%的序列差异
  -splice/splice:hq: 长读取/Pacbio-CCS剪接比对
  -sr: 基因组短读比对

实例(polish 第一步)

#将contig/scaffold序列比对到hifi测序的长序列
minimap2 -ax map-hifi -t 20 groups.asm.fasta .hifi_reads.bam.fasta.gz |samtools view -F 0x4 -b - |samtools sort - -m 2g -@ 20 -o genome.lgs.bam

相关文章

网友评论

      本文标题:minimap2参数详解

      本文链接:https://www.haomeiwen.com/subject/csnwydtx.html