参考:生信技能树;百迈克生物科技;晶能生物;华大基因;千年基因
image.png
一、外显子组测序技术简介
外显子测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后,再进行高通量测序的基因组分析方法。
外显子组序列仅占全基因组序列的1%左右,与人类85%致病基因突变相关。与全基因组测序相比,外显子组测序不仅费用较低,而且测序覆盖度更深,数据准确性更高。
二、外显子组测序流程
image.png 2.建库 3.捕获三、分析流程
晶能:分析的流程————QC>比对>SNP识别>b变异体注释华大
1.数据过滤与评估
过滤接头。对含接头的reads去除接头序列。
一条reads上N(未能确定出具体的碱基类型)的比例大于5%,则过滤掉该reads。
过滤低质量reads,过滤掉Q30<85% reads。
image.png
质量分布图和碱基含量分布图
adapter
2.整体质量评估(比对)
通过bwa软件将reads map到标准参考基因组上(UCSC hg38),去除无法map到参考基
因组和多重map的reads后进行后续分析,大约有99.5%的reads能进行下一轮分析。
image.png
1.测序深度统计
2.外显子捕获统计
3.染色体覆盖深度分布
3.SNP检测与注释
使用Samtools对测序结果与参考基因组进行比对,找出样品中存在的变异信息,包
括SNV、InDel等,并对其进行注释及功能预测,包括dbSNP、1000G数据库、SIFT、
Polyphen-2及GERP等软件
1.使用GATK软件包
2.突变特征
image.png
image.png
4.InDel检测与注释
5.高级分析
1.基因融合
2.氨基酸替换预测
image.png
3.样品间差异表达基因GO分类
image.png4.差异表达基因KEGG注释
image.png
四、应用思路
1、寻找孟德尔疾病致病基因思路
image.png
2、复杂疾病的研究思路
image.png
总结:数据分析流程
image.pngimage.png
高通量测序相关名词
- 外显子组测序:是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高
通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基
因的SNP、 InDel 等具有较大的优势。 - 测序深度:测序得到的总碱基数与待测区域大小的比值。如使用Illumina TruSeq Exome
Enrichment Kit,该试剂盒的捕获范围为62M,测序得到620M数据量时,测序深度为
620/62=10×。 - 覆盖率:指测序获得的序列占整个待测区域的比例。如外显子组测序的覆盖率是98%,
则表示仍有2%的序列区域是没有通过测序获得的。 - Read:就是读长,就是高通量测序时一个反应所能测出的碱基数。
- SNP(single nucleotide polymorphism):单核苷酸多态性,个体间基因组DNA序列同一
位置单个核苷酸变异(替代、插入或缺失)所引起的多态性;不同物种个体基因组 DNA 序
列同一位置上的单个核苷酸存在差别的现象。 - InDel(Insertion/Deletion):插入/缺失,是指两种亲本在全基因组中的差异,相对另一
个亲本而言,其中一个亲本的基因组中有一定数量的核苷酸插入或缺失。 - CNV(copy number variation):基因组拷贝数变异,是基因组变异的一种形式,通常使
基因组中大片段的DNA形成非正常的拷贝数量。 - SV(structure variation):基因组结构变异,染色体结构变异是指在染色体上发生了大
片段的变异。主要包括染色体大片段的插入和缺失,染色体内部的某块区域发生重复复
制、翻转颠换、易位、两条染色体之间发生重组等。
网友评论