美文网首页
WES(全外显子)分析(中)

WES(全外显子)分析(中)

作者: dandanwu90 | 来源:发表于2019-01-22 21:32 被阅读0次

1. 注释annovar

mkdir annovar && cd annovar
sample="7E5241"
#/home/vip2/7E5241.chr1_2_raw.vcf
#/home/qmcui/software/ANNOVAR/annovar/convert2annovar.pl 
/home/qmcui/software/ANNOVAR/annovar/convert2annovar.pl -format vcf4old /home/vip2/7E5241.chr1_2_raw.vcf >${sample}.annovar

#做人类的比对,annovar 中默认有hg38,所以用
sample="7E5241"
/home/qmcui/software/ANNOVAR/annovar/annotate_variation.pl -buildver hg38 --outfile ${sample}.anno 7E5241.annovar /home/qmcui/software/ANNOVAR/annovar/humandb
annovar结果 7E5241.anno.variant_function对应表头信息
7E5241.anno.variant_function文本查看 7E5241.anno.exonic_variant_function对应表头信息 7E5241.anno.exonic_variant_function文本信息

2. IGV可视化

2.1 建立索引

cd project/wes/6.gatk_bam/
ls *fixed.bam
nohup ls *fixed.bam|xargs -i samtools index {} &

2.2 目标基因选取
由于背景知识薄弱,不知道chr1,chr2上对应有哪些基因,故找到gtf注释文件,选取一段序列外显子

cd ~/project/rna/gtf/
zcat gencode.v29.annotation.gtf.gz|less -SN
#line60-line100坐标 chr1:62916-120932

2.3 生成bam文件

samtools view -h 7E5241_marked_fixed.bam chr1:62916-120932 |samtools sort -o 7E5241_marked_fixed.unkown.bam

2.4 IGV可视化
将生成的bam以及对应的bai.bam 下载到本地,IGV中选择hg38,chr1,chr1:62916-120932

IGV可视化所需文件 IGV可视化选定区域

3. samtools 找变异(有报错,未找到原因)

samtools mpileup -ugf /home/qmcui/database/reference/index/bwa/hg38.fa ../6.gatk_bam/7E5241_bqsr.bam | bcftools call -vmO z -o out.raw.vcf.gz
samtools找变异 报错信息
找到输入文件并查看bam文件内容
bam文件内容 确认索引信息

4. 找变异

4.1 gvcf文件
3个样本循环(一个样本1.5h的耗时
**注意**只是把样本名称放入循环,并不是样本,所以在input的时候要放入路径

sample是不同的样本,可以把样本写入一个txt文档中
cat bq_bam.txt
7E5239_bqsr.bam
7E5240_bqsr.bam
7E5241_bqsr.bam
^C
cat >bq_bam.sh
ref="/home/qmcui/database/reference/index/hisat/hg38/hg38.fa"
snp="/home/qmcui/dbsnp_146.hg38.vcf.gz"
cat bq_bam.txt| while read sample
do gatk --java-options "-Xmx10G -Djava.io.tmpdir=./" HaplotypeCaller -ERC GVCF -R $ref -I ./bqsr.bam/${sample} --dbsnp $snp -O ${sample}_raw.gvcf 1>${sample}.gvcf.log 2>&1
done
nohup bash bq_bam.sh &

4.2 合并gvcf,生成按染色体来找变异

#先将染色体按条数分开
seq 22|while read id;do echo chr${id};done >bed.txt
cat >>bed.txt
chrX
chrY
chrM
#合并样本的gvcf
cat >gvcf.sh
ref="/home/qmcui/database/reference/index/hisat/hg38/hg38.fa"
snp="/home/qmcui/dbsnp_146.hg38.vcf.gz"
cat bed.txt|while read bed;do gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" GenomicsDBImport -L $bed -R $ref -V 7E5239_bqsr.bam_raw.gvcf -V 7E5240_bqsr.bam_raw.gvcf -V 7E5241_bqsr.bam_raw.gvcf --genomicsdb-workspace-path gvcfs_${bed}.db
gatk --java-options "-Xmx20G -Djava.io.tmpdir=./" GenotypeGVCFs \ -R $ref -V gendb://gvcfs_${bed}.db --dbsnp $snp -O final_${bed}.vcf;done
nohup bash gvcf.sh &

#合并gvcf
gatk MergeVcfs -I final_chr2.vcf -I final_chr1.vcf -O raw.combine.vcf.gz

相关文章

  • WES(全外显子)分析(下)

    续WES(全外显子)分析(中) 1. raw vcf filter 1.1 vcf snp过滤 1.2 vcf i...

  • 2018-10-16

    生信学习笔记 转录组是测表达量 WES是测变异与否 WES数据分析 WES 全外显子测序 对SNP和indel体细...

  • WES(全外显子)分析(中)

    1. 注释annovar 2. IGV可视化 2.1 建立索引 2.2 目标基因选取由于背景知识薄弱,不知道chr...

  • 总目录:三阴性乳腺癌全外显子分析(wes)(大样本727个)

    如果想看小样本的请移步全外显子测序(wes)数据分析详细流程(小样本) 说明:数据分析来自Genomic and ...

  • WES

    [TOC] 0. 背景和准备 WES测序原理和过程 全外显子组测序-一*简介 实验流程 数据分析流程 标准信息分析...

  • 学习小组Day7笔记--林枫

    测序原理: 应用领域: 1.基因组学(核酸序列分析) (1)全基因组测序(WGS)(2)全外显子组测序(WES)(...

  • 全外显子测序(wes)数据分析详细流程(小样本)

    如果想看大样本的数据处理分析流程请移步总目录:三阴性乳腺癌全外显子分析(wes)(大样本727个) 分析流程目录如...

  • 1 登录服务器增加用户

    总目录:三阴性乳腺癌全外显子分析(wes) 1登录服务器 1 ubuntu(子系统)直接登录 2 putty登录 ...

  • WES(全外显子)分析(上)

    感悟: 软件不看帮助文档,不阅读说明书,就只能抄代码,却不知道错在哪里。不想要成为代码搬运工。 1. 分析前工作准...

  • 2018-09-23 WES流程文件解读1

    wes定义: 全外显子组测序,是利用目标序列捕获技术, 将全基因组编码基因外显子区域的DNA捕获并富集后,进行高通...

网友评论

      本文标题:WES(全外显子)分析(中)

      本文链接:https://www.haomeiwen.com/subject/qumljqtx.html