美文网首页
GATK参考序列的操作(操作FASTA格式的序列)

GATK参考序列的操作(操作FASTA格式的序列)

作者: Greatji | 来源:发表于2020-02-10 10:50 被阅读0次
    工具名称 简介 运行命令
    BaitDesigner (Picard) 设计杂交捕获反应设计杂交探针用的 " java -jar picard.jar BaitDesigner \ TARGET=targets.interval_list \ DESIGN_NAME=new_baits \ R=reference_sequence.fasta "
    BwaMemIndexImageCreator 生成.img为GATK BWA所需 "gatk BwaMemIndexImageCreator \ -I reference.fasta \ -O reference.fasta.img"
    "CountBasesInReference 替换成了CountBases" 统计在SAM/BAM/CRAM中的碱基 "gatk CountBases \ -I input_reads.bam"
    CreateSequenceDictionary (Picard) (Picard)生成.dict,这个文件是一个index,GATK很多过程都需要 java -jar picard.jar CreateSequenceDictionary \R=reference.fasta \O=reference.dict
    ExtractSequences (Picard)根据区域信息从参考序列中导出一个新的fasta序列 java -jar picard.jar ExtractSequences \INTERVAL_LIST=regions_of_interest.interval_list \R=reference.fasta \O=extracted_IL_sequences.fasta
    FastaAlternateReferenceMaker 根据突变的VCF修改reference里的碱基,如果有区域信息,则只显示区域内的序列。 gatk FastaAlternateReferenceMaker -R reference.fasta -O output.fasta -L input.intervals -V input.vcf [--snp-mask mask.vcf]
    FastaReferenceMaker 根据区域信息导出区域内的序列。 gatk FastaReferenceMaker \ -R reference.fasta \ -O output.fasta \ -L input.intervals
    FindBadGenomicKmersSpark BETA 检查参考序列中的高重复的序列 gatk FindBadGenomicKmersSpark \ -R reference.fasta \ -O kmers_to_ignore.txt
    NonNFastaSize(Picard) 统计参考序列中非N的碱基个数,需要实现index生成.bai和.dict java -jarpicard.jar NonNFastaSize \ I=input_sequence.fasta \ O=count.txt
    NormalizeFasta(Picard) 将参考序列整理成除最后一行以外,长度相等的fasta格式,默认长度100 java -jar picard.jar NormalizeFasta \ I=input_sequence.fasta \ O=normalized_sequence.fasta
    ScatterIntervalsByNs(Picard) 根据参考序列中的N生成区间文件 java -jar picard.jar ScatterIntervalsByNs \ REFERENCE=reference_sequence.fasta \ OUTPUT_TYPE=ACGT \ OUTPUT=output.interval_list

    相关文章

      网友评论

          本文标题:GATK参考序列的操作(操作FASTA格式的序列)

          本文链接:https://www.haomeiwen.com/subject/hlfaxhtx.html