重测序分析

作者: 每天都想睡觉的阿源 | 来源:发表于2021-11-18 16:47 被阅读0次

通过双端测序的数据比对参考基因组。

第一步准备工作(这里只用了拟南芥1号染色体的数据)

bwa index ./sequences.fa(bwa建立索引)

gatk --java-options "-Xmx8G -Djava.io.tmpdir=./tmp" CreateSequenceDictionary -R ath.chr1/sequences.fa -O ath.chr1/sequences.dict(建立gatk所需要的文件。-R 参考基因组所在位置。-Xmx8G -Djava.io.tmpdir=./tmp" ,内存最大8G,存储在tmp临时文件,gatk CreateSequenceDictionary 创建字典文件)

samtools faidx ath.chr1/sequences.fa(建立samtools 提取序列)

第二步准备比对

mkdir mapping

bwa mem -t 4 -R '@RG\tID:s1\tSM:s1\tLB:s1\tPL:ILLUMINA' ath.chr1/sequences.fa data/sample1.1.fq data/sample1.2.fq|samtools view -bS > mapping/s1.bam(mem适合100bp以上,-t 4 4个cpu,-R 输出文件 ID是样品名称,LB是库的样品,测序平台,参考基因组的地址,以及双端测序的测序文件 |前面的输出到后面的输入,sam变成bam文件)

bwa mem -t 4 -R '@RG\tID:s2\tSM:s2\tLB:s2\tPL:ILLUMINA' ath.chr1/sequences.fa data/sample2.1.fq data/sample2.2.fq|samtools view -bS > mapping/s2.bam

samtools sort -@ 4 mapping/s1.bam -o mapping/s1.sorted.bam(按照基因组顺序排序)

samtools sort -@ 4 mapping/s2.bam -o mapping/s2.sorted.bam

gatk --java-options "-Xmx4G -Djava.io.tmpdir=./tmp" MarkDuplicates -I mapping/s1.sorted.bam -O mapping/s1.MarkDup.bam -M mapping/s1.markdup_metrics.txt(对pcr duplicate进行标记)

gatk --java-options "-Xmx4G -Djava.io.tmpdir=./tmp" MarkDuplicates -I mapping/s2.sorted.bam -O mapping/s2.MarkDup.bam -M mapping/s2.markdup_metrics.txt

samtools index mapping/s1.MarkDup.bam(建立index,否则难以比对)

samtools index mapping/s2.MarkDup.bam

第三步snp calling

nohup gatk --java-options "-Xmx4G -Djava.io.tmpdir=./tmp" HaplotypeCaller -R ath.chr1/sequences.fa -I mapping/s1.MarkDup.bam -O SNP/s1.gvcf --emit-ref-confidence GVCF -stand-call-conf 30 >SNP/s1.HaplotypeCaller.log&(HaplotypeCaller对每个样品分别进行变异检测,每个样品生成一个gvcf文件,-stand-call-conf 30 质量高于30才可以)

nohup gatk --java-options "-Xmx4G -Djava.io.tmpdir=./tmp" HaplotypeCaller -R ath.chr1/sequences.fa -I mapping/s2.MarkDup.bam -O SNP/s2.gvcf --emit-ref-confidence GVCF -stand-call-conf 30 >SNP/s2.HaplotypeCaller.log&

gatk --java-options "-Xmx4G -Djava.io.tmpdir=./tmp" GenomicsDBImport -L 1 -V SNP/s1.gvcf -V SNP/s2.gvcf --genomicsdb-workspace-path SNP/vcfdbGenomicsDBImport(将多个样品的gvcf信息合并为一个数据库#-L参数后面跟着染色体编号,如果有多条染色体,-L 可以输入多次,例如 -L 1 -L 2 -L 3表示1,2,3三条染色体)

gatk --java-options "-Xmx4G -Djava.io.tmpdir=./tmp" GenotypeGVCFs -R ath.chr1/sequences.fa  -V gendb://SNP/vcfdb -O SNP/raw.vcf >SNP/raw.GenotypeGvcf.log(转为vcf文件)

gatk --java-options "-Xmx4G -Djava.io.tmpdir=./tmp" VariantFiltration -V SNP/raw.vcf -O SNP/filter.vcf --filter-expression "QD < 2.0 || FS > 60.0" --filter-name "Fail" >SNP/filter.log(按照QD与FS进行过滤)

将InDel与SNP分开为两个文件

grep -v "Fail" SNP/filter.vcf >SNP/final.vcf(保留通过文件)

gatk --java-options "-Xmx8G -Djava.io.tmpdir=./tmp" SelectVariants -select-type INDEL -V SNP/final.vcf -O SNP/final.indel.vcf

gatk --java-options "-Xmx8G -Djava.io.tmpdir=./tmp" SelectVariants -select-type SNP  -V SNP/final.vcf -O SNP/final.snp.vcf

snp注释

snpEff build -c snpEff.config ath.chr1(建库)

snpEff -c snpEff.config -o gatk ath.chr1 SNP/final.snp.vcf > demo_anno_vcf(snp 分析) 

相关文章

  • 重测序分析(1)软件安装

    今天开启重测序分析专题啦!恳请各位观众老爷点点关注! 所有分析均在linux系统上完成整个重测序分析流程涉及到的软...

  • 重测序分析

    通过双端测序的数据比对参考基因组。 第一步准备工作(这里只用了拟南芥1号染色体的数据) bwa index ./s...

  • 重测序分析

    重测序:是对已对已知基因组的物种进行测序,去挖掘不同个体和群体之间的差异性。 重测序分析内容: SNP,INDEL...

  • 重测序PCA分析

    plink --vcf all.chromosome.SNP.changID.vcf --make-bed --o...

  • 分析流程

    基因组重测序数据目的:需要检测基因组中的变异,找到并定位这些突变位点 条件:参考基因组、重测序数据、 分析流程: ...

  • 新年新知识,来看看分子育种的FAQ吧

    基因是控制植物性状的关键因子,重测序技术是将基因和性状关联的有效方法,通过构建目标物种基因组,利用重测序方法分析性...

  • 5.6 基因检测:在森林里找到一片黄色的树叶

    基因检测分类方法很多,最常见的是按检测范围分为:全基因组测序、靶向重测序。 全基因组测序 是分析基因组的最全面的方...

  • 全基因组重测序流程【超细致!!】

    自己在研究生的第一个项目就是处理重测序数据,在做的过程中参考了很多资料,现在把整个重测序的上游分析流程分享给大家,...

  • SMC++ 安装

    SMC++ 是分析种群历史的一个软件,主要用在重测序数据分析中。 git地址 GitHub - popgenmet...

  • 重测序分析(6)CNV检测

    拷贝数变异(Copy Number Variation,CNV)是一种复杂的现象,一般是由基因组发生重排导致的,一...

网友评论

    本文标题:重测序分析

    本文链接:https://www.haomeiwen.com/subject/iqndtrtx.html