美文网首页
WGS数据分析(一):原始数据,参考基因组及必备数据库

WGS数据分析(一):原始数据,参考基因组及必备数据库

作者: Z_bioinfo | 来源:发表于2023-04-26 10:32 被阅读0次

01. fastq数据下载

数据选自千人基因组计划中英格兰和苏格兰的英国人的全外显子测序,包括三男三女

mkdir fastq
cd fastq
# HG00119
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099967/SRR099967_1.fastq.gz &
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099967/SRR099967_2.fastq.gz &
mv SRR099967_1.fastq.gz HG00119_1.fastq.gz
mv SRR099967_2.fastq.gz HG00119_2.fastq.gz
# HG00133
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099969/SRR099969_1.fastq.gz &
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099969/SRR099969_2.fastq.gz &
mv SRR099969_1.fastq.gz HG00133_1.fastq.gz
mv SRR099969_2.fastq.gz HG00133_2.fastq.gz
# HG00145
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099957/SRR099957_1.fastq.gz &
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099957/SRR099957_2.fastq.gz &
mv SRR099957_1.fastq.gz HG00145_1.fastq.gz
mv SRR099957_2.fastq.gz HG00145_2.fastq.gz
# HG00239
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099958/SRR099958_1.fastq.gz &
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099958/SRR099958_2.fastq.gz &
mv SRR099958_1.fastq.gz HG00239_1.fastq.gz
mv SRR099958_2.fastq.gz HG00239_2.fastq.gz
# HG00258
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099954/SRR099954_1.fastq.gz &
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099954/SRR099954_2.fastq.gz &
mv SRR099954_1.fastq.gz HG00258_1.fastq.gz
mv SRR099954_2.fastq.gz HG00258_2.fastq.gz
# HG00265
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099968/SRR099968_1.fastq.gz &
nohup wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR099/SRR099968/SRR099968_2.fastq.gz &
mv SRR099968_1.fastq.gz HG00265_1.fastq.gz
mv SRR099968_1.fastq.gz HG00265_2.fastq.gz

02.质量控制及过滤

mkdir fastqc
fastqc fastqc --outdir fastqc  --threads 16  *.gz
cd fastqc
multiqc *zip#将质控结果整合

03.参考基因组及注释文件下载

GATK 在官网中提供了resource bundle,里面包含了所需要的很多数据。 ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/

#参考基因组文件
nohup wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.gz &
#建立索引
gunzip Homo_sapiens_assembly38.fasta.gz
samtools faidx Homo_sapiens_assembly38.fasta
#dbSNP数据库的变异位点vcf文件
nohup wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/dbsnp_146.hg38.vcf.gz &
nohup wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/dbsnp_146.hg38.vcf.gz.tbi &
#这个是比较准确的人indel数据
nohup wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz &
nohup wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz.tbi &

nohup wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.dict &
nohup wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/1000G_phase1.snps.high_confidence.hg38.vcf.gz &
nohup wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/1000G_phase1.snps.high_confidence.hg38.vcf.gz.tbi &
nohup wget -c ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/funcotator/funcotator_dataSources.v1.6.20190124s.tar.gz &

相关文章

  • GATK分析

    从零开始完整学习全基因组测序(WGS)数据分析:第1节 测序技术 从零开始完整学习全基因组测序(WGS)数据分析:...

  • 全基因组分析实践(参考:碱基矿工)

    参考:碱基矿工从零开始完整学习全基因组测序数据分析:第4节 构建WGS主流程GATK4.0和全基因组数据分析实践(...

  • 2 下载GATK需要的参考基因组文件

    参考基因组及必备的数据库 参考基因组下载 我是从服务器上下载下来放本地电脑了 下载方式1: 直接去gatk官网下载...

  • tophat2+cufflinks转录组测序(2)—去接头>

    在将原始数据和参考基因组数据处理好以后,就开始开始比对分析了比对所用到的参考基因组的索引文件和基因组注释文件都存放...

  • 使用tophat2和cufflinks进行转录组分析

    处理原始数据和参考基因组数据后,开始比对分析。将比对所需参考基因组的索引文件和基因组注释文件存放于hg19文件夹,...

  • 转录组数据分析

    转录组分析基本流程 总体流程 测序的原始数据下载-----数据的过滤和质控(fastp)----下载参考基因组序列...

  • 数据质控

    参考: 从零开始完整学习全基因组测序数据分析:第3节 数据质控 前言 如上图显示,整个完整的WGS 流程一般有以下...

  • 比对软件索引构建与效率比较

    最近接触下组学的raw data分析,慢慢学咯~ 下载参考基因组 【直播】我的基因组(五):测试数据及参考基因组的...

  • 五、数据比对

    1.参考基因组准备 (1)参考基因组数据库 ? 参考基因组下载 (2)数据文件格式 2.数据比对 (1) Hisa...

  • 计算WGS/WES/panel捕获效率/覆盖度的方法有哪些

    WGS, WES, or targeted sequencing数据分析的时候,经常需要计算全基因组整体的平均测序...

网友评论

      本文标题:WGS数据分析(一):原始数据,参考基因组及必备数据库

      本文链接:https://www.haomeiwen.com/subject/ktwbkdtx.html