美文网首页
GTAK4分析篇 -- 1.数据前处理

GTAK4分析篇 -- 1.数据前处理

作者: 面具男女 | 来源:发表于2019-12-10 09:02 被阅读0次

最新版的GATK4跟之前GATK2/3用法上很大的不同,下面是改版后的代码

1.创建bwa比对的index

bwa index -a bwtsw -p hg38 /home/NGS/gatk_ref/Homo_sapiens_assembly38.fasta

2.fastqc测序质量监控

fastqc /home/NGS/raw_data/A921C10.R1.fastq.gz /home/NGS/raw_data/A921C10.R2.fastq.gz  -t 2 --outdir /home/NGS/1.fastqc/

3.去除低质量reads和接头

trim_galore -q 30   --phred33 --length 100 --stringency 3 --paired -o /home/NGS/2.trim-galore/ /home/NGS/raw_data/A921C10.R1.fastq.gz /home/NGS/raw_data/A921C10.R2.fastq.gz

4.比对参考基因组 + 按坐标排序

bwa mem /home/NGS/bwa_index/human /home/NGS/raw_data/A921C10.R1_trimmed.fq.gz /home/NGS/raw_data/A921C10.R2_trimmed.fq.gz -t 4 -R "@RG\tID:A921C10\tSM:A921C10\tLB:WGS\tPL:Illumina" | samtools sort -@ 4 -O BAM -o A921C10.bam

5.创建fasta的dict(用于GATK)

/home/gatk-4.1.4.1/gatk CreateSequenceDictionary -R /home/NGS/gatk_ref/Homo_sapiens_assembly38.fasta -O Homo_sapiens_assembly38.dict

6.创建fasta的fai(用于GATK)

samtools faidx /home/NGS/gatk_ref/Homo_sapiens_assembly38.fasta

7.统计比对结果

java -jar /home/picard/picard/build/libs/picard.jar CollectAlignmentSummaryMetrics R=/home/NGS/gatk_ref/Homo_sapiens.GRCh38.dna.primary_assembly.fa I=/home/NGS/3.bwa+sort/A921C10.bam  O=./alignment_metrics.txt
java -jar /home/picard/picard/build/libs/picard.jar CollectInsertSizeMetrics INPUT=/home/NGS/3.bwa+sort/A921C10.bam OUTPUT=./insert_metrics.txt HISTOGRAM_FILE=insert_size_histogram.pdf
samtools depth -a /home/NGS/3.bwa+sort/A921C10.bam > depth_out.txt

8.标记重复序列(PCR)

java -jar /home/picard/picard/build/libs/picard.jar MarkDuplicates I=/home/NGS/3.bwa+sort/A921C10.bam M=./metrics.txt O=./A921C10_dedup.bam

9.修正且确保读取和匹配是同步的

java -jar /home/picard/picard/build/libs/picard.jar FixMateInformation I=/home/NGS/3.bwa+sort/A921C10.bam O=./A921C10_dedup_fix.bam ADD_MATE_CIGAR=true

10.校正碱基质量得分

input="/home/NGS/5.MarkDuplicates/A921C10_dedup.bam"
output="/home/NGS/7.Base_QualityScore_Recalibration"
ref="/home/NGS/gatk_ref/Homo_sapiens_assembly38.fasta"
snp="/home/NGS/gatk_ref/dbsnp_146.hg38.vcf"
indel="/home/NGS/gatk_ref/Mills_and_1000G_gold_standard.indels.hg38.vcf"
gatk="/home/gatk-4.1.4.1/gatk"
    
$gatk BaseRecalibrator -R $ref -I $input -O $ouput/bqsr.table --known-sites $snp --known-sites $indel
echo -e "\n\n\nBaseRecalibrator has finished!!!!!!!!\n\n\n"
    
$gatk ApplyBQSR -R $ref -I $input  -bqsr-recal-file bqsr.table  -O $ouput/A921C10_dedup_fix_bqsr.bam
echo -e "\n\n\nApplyBQSR has finished!!!!!!!!\n\n\n"

注意:所用的fasta和vcf最好在同一个平台下载,实践时出现了一个错误:fasta的染色体标记和vcf不一样。有的是1、2、Y、X、M,而有的是chr1、chr2、chrX、chrY、chrM,比对是就会没有overlap的reads

相关文章

  • GTAK4分析篇 -- 1.数据前处理

    最新版的GATK4跟之前GATK2/3用法上很大的不同,下面是改版后的代码 1.创建bwa比对的index 2.f...

  • 读《谁说菜鸟不会数据分析》2016-05-04

    第四章 数据处理 前面说了,在进行数据分析前要对我们的数据进行处理,处理是分析前很重要的工作 1. 数据分析人应该...

  • 这些年,你不可不知的描述性统计

    前一篇分享了统计学需要掌握的知识,在数据分析过程中,广泛用于数据质量处理,分析模型构建以及数据挖掘。 做好数据分析...

  • 大数据三种处理方式

    大数据在线分析处理 大数据离线处理 OLAP 和 OLTP 处理 1.实时流式处理 (1)问题的特点 --》数据源...

  • 上证指数分析(五)

    上一篇成功获得上证指数历史数据和每天更新的实时数据后, 该思考怎么去处理这些数据了。 1. 自相关分析 首先分析这...

  • T2.5-SPSS 数据分析的步骤

    数据分析的一般步骤 1. 明确数据分析目标 2. 正确收集数据 3. 数据的加工处理 • 缺失值处理 • 数据分组...

  • 【代谢组学】代谢组学原始数据的预处理

    主要内容: 1. 原始数据预处理概述; 2. 主要分析软件汇总; 3. 数据预处理的方法。 1. 原始数据预处理概...

  • Spark Streaming 1.基本操作

    1. 数据分析分类: 流式数据处理:多条数据缓冲一起处理批量数据处理:一条数据一处理 实时数据处理:数据处理延迟时...

  • 1分钟了解数据分析挖掘体系

    总体上来讲,数据分析挖掘体系可分为数据预处理、分析挖掘、数据探索、数据展现和分析工具。 数据预处理 数据预处理包含...

  • R 数据质量分析①

    数据质量分析 数据质量分析是数据挖掘中数据准备的最重要一环,是数据处理的前体。数据质量分分析主要任务是识别脏数据。...

网友评论

      本文标题:GTAK4分析篇 -- 1.数据前处理

      本文链接:https://www.haomeiwen.com/subject/gecwgctx.html