生信分析的旅程大致是,接收fastq,获得bam,然后vcf
fastq bam vcf
FASTQ文件是什么?通常人们会拿着DNA的碎纸片,由碎纸片扫描的图片文件,转化成文本文件就是FASTQ
fastq
产生这些小拼图文件之后,这些拼图与盒子上的参考图会有不同吗? 当然会啦,这张图片毕竟只是个参考啦 人与人之间存在许多差异,这些差异解释了为什么有的人容易得某种癌症,有的人对一些药物有反应,而另一些人没有反应 找寻差异的过程也使生信分析变得更加有趣
BAM文件是什么?
把FASTQ文件比对到参考基因组之后,我们得到SAM或者BAM。BAM就是SAM的二进制文件。SAM是纯文本文件,十分巨大。为解决空间爆满的问题,BWA的开发者设计了一种高效的压缩算法,压缩得到的BAM文件大小差不多只有原来的1/6
BAM文件分为两个部分:头文件(header)和比对结果(record,有时也叫alignment section) 头文件:每一行都用 @ 符号开头,里面主要包含了版本信息,序列比对的参考序列信息 比对结果:BAM的核心,包含以下几个内容
bam比对信息
VCF文件分为两个部分,第一部分是说明文件,每行均以两个## 符号开头,第二部分是突变信息
vcf文件这样我们就可以解释倒数第四行的内容: 20:17330 是一个新发现的由T到A的变异,但质量值较低(QUAL=3),根据说明文件的第十三行,质量值小于10,被标成了 q10 ,在后续分析中可以被过滤掉 其它行代表什么信息,大家感兴趣的话也可以试着翻译翻译
FASTQ记录原始序列和测序质量,BAM记录序列比对信息,VCF记录变异信息
网友评论