GATK参考序列的操作(操作FASTA格式的序列)
作者:
Greatji | 来源:发表于
2020-02-10 10:50 被阅读0次
工具名称 |
简介 |
运行命令 |
BaitDesigner (Picard) |
设计杂交捕获反应设计杂交探针用的 |
" java -jar picard.jar BaitDesigner \ TARGET=targets.interval_list \ DESIGN_NAME=new_baits \ R=reference_sequence.fasta " |
BwaMemIndexImageCreator |
生成.img为GATK BWA所需 |
"gatk BwaMemIndexImageCreator \ -I reference.fasta \ -O reference.fasta.img" |
"CountBasesInReference |
替换成了CountBases" |
统计在SAM/BAM/CRAM中的碱基 "gatk CountBases \ -I input_reads.bam" |
CreateSequenceDictionary (Picard) |
(Picard)生成.dict,这个文件是一个index,GATK很多过程都需要 |
java -jar picard.jar CreateSequenceDictionary \R=reference.fasta \O=reference.dict |
ExtractSequences |
(Picard)根据区域信息从参考序列中导出一个新的fasta序列 |
java -jar picard.jar ExtractSequences \INTERVAL_LIST=regions_of_interest.interval_list \R=reference.fasta \O=extracted_IL_sequences.fasta |
FastaAlternateReferenceMaker |
根据突变的VCF修改reference里的碱基,如果有区域信息,则只显示区域内的序列。 |
gatk FastaAlternateReferenceMaker -R reference.fasta -O output.fasta -L input.intervals -V input.vcf [--snp-mask mask.vcf] |
FastaReferenceMaker |
根据区域信息导出区域内的序列。 |
gatk FastaReferenceMaker \ -R reference.fasta \ -O output.fasta \ -L input.intervals |
FindBadGenomicKmersSpark |
BETA 检查参考序列中的高重复的序列 |
gatk FindBadGenomicKmersSpark \ -R reference.fasta \ -O kmers_to_ignore.txt |
NonNFastaSize(Picard) |
统计参考序列中非N的碱基个数,需要实现index生成.bai和.dict |
java -jarpicard.jar NonNFastaSize \ I=input_sequence.fasta \ O=count.txt |
NormalizeFasta(Picard) |
将参考序列整理成除最后一行以外,长度相等的fasta格式,默认长度100 |
java -jar picard.jar NormalizeFasta \ I=input_sequence.fasta \ O=normalized_sequence.fasta |
ScatterIntervalsByNs(Picard) |
根据参考序列中的N生成区间文件 |
java -jar picard.jar ScatterIntervalsByNs \ REFERENCE=reference_sequence.fasta \ OUTPUT_TYPE=ACGT \ OUTPUT=output.interval_list |
本文标题:GATK参考序列的操作(操作FASTA格式的序列)
本文链接:https://www.haomeiwen.com/subject/hlfaxhtx.html
网友评论