二代测序数据过滤
1.基因测序技术
一代测序 sanger测序
二代测序 Roche/454 Illumina ABI/Solid
三代测序 PacBio/SMRT
其他测序 Ion Torrent
2.二代测序比较
![](https://img.haomeiwen.com/i18110061/ec468e1e007bedc7.png)
3.测序通用流程
1.制备文库
2.PCR扩增
3.测序及荧光信号判定
4.测序数据错误(针对每项过滤)
1.低质量的序列(low quality reads)
2.重复序列(duplicate reads)
3.核苷酸的插入、删除及替换(insertion、deletion、mismatch)的序列
4.带有人工污染物(如adapter等)的序列
5.其他(交叉互换等)
5.测序数据格式
![](https://img.haomeiwen.com/i18110061/9a170bbabc885887.png)
![](https://img.haomeiwen.com/i18110061/2674c32f17fe52f9.png)
![](https://img.haomeiwen.com/i18110061/22e50f1d6c69a9a5.png)
6.测序数据质量转换
![](https://img.haomeiwen.com/i18110061/57ba669096f5a4b1.png)
7.低质量的序列(low quality reads)
A:每个碱基位点质量分布,B:序列平均质量密度分布
![](https://img.haomeiwen.com/i18110061/fe49cc2d434d9b06.png)
A:正链每个碱基位点质量分布,B:正链序列平均质量密度分布
C:反链每个碱基位点质量分布,D:反链序列平均质量密度分布
![](https://img.haomeiwen.com/i18110061/4d3f7e3960a18a04.png)
![](https://img.haomeiwen.com/i18110061/96c3ec037ebb9e0e.png)
每个碱基位点质量分布
![](https://img.haomeiwen.com/i18110061/6fa42670383c4f30.png)
过滤方法
(1)平均质量和低质量碱基数
![](https://img.haomeiwen.com/i18110061/d57bd33b3891a903.png)
低质量碱基数百分百(阈值k):P= N(Q<k)/N总 (N为碱基数)
补充:
(1)Q = -10lg(e) e为预计碱基检出不正确的概率
(2)去除未识别的非ATCG的碱基N,(P=numN/num)>阈值
(2)滑动窗口算法
![](https://img.haomeiwen.com/i18110061/5957547ad44fe980.png)
8.重复序列(duplicate reads)
(1)重复序列聚类算法
![](https://img.haomeiwen.com/i18110061/a5652647bd010dbb.png)
(2)比对后去重复
测序原始数据与参考基因组比对,对生成的**.sam文件做处理,该文件保留了匹配每个位点的相关信息,寻找重复序列并去除就比较容易。下面为picard去重复代码
java –Xmx4g -jar picard-tools-1.70/MarkDuplicates.jar \
MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=8000 \
INPUT= sample01.sort.bam \
OUTPUT= sample01.dedup.bam \
METRICS_FILE= sample01.dedup.metrics
realigned.bam <- realign(dedup.bam) [with known sites included if available]
9.核苷酸的插入、删除及替换(insertion、deletion、mismatch)的序列
略
10.带有人工污染物(如adapter等)的序列
![](https://img.haomeiwen.com/i18110061/4a1909e9fe65df8a.png)
11.其他(交叉互换等)
略
12.数据过滤评估
1.过滤后的数据与参考基因组比对,比较比对率的高低
2.被过滤的测序数据所含匹配碱基的数目高低
3.程序运行时间及复杂程度
4.过滤过程及过滤后都可做一些质控分析,用质控数据直观显示过滤状况
质量分析软件-FastQC:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
芯片数据过滤
1.芯片简介
1.涉及生命科学、物理科学、计算机科学、微电子技术、光电技术、材料科学等。
2.现状:21世纪初发展,受二代测序冲击,低迷一段时间,现有回升趋势。
3.原理:杂交测序法。变性DNA,加入探针杂交,退火。
2.芯片分析流程
![](https://img.haomeiwen.com/i18110061/224a8554fc05cd97.png)
3.芯片制备过程
1.芯片设计:
(1)探针的设计
(2)探针在芯片上的布局
2.注意事项:
(1)互补性
(2)敏感性和特异性
(3)容错性
(4)可靠性
(5)可控性
(6)可读性
4.杂交信号检测
1.现有的杂交信号检查一般都有相应的仪器,做一些图像的识别、处理及分析,提取数字信号得到原始数据。
2.杂交信号探测系统:
(1)杂交信号产生
(2)信号收集及传输
(3)信号处理及成像
3.质控过滤:
(1)软件、硬件、检测扫描系统
(2)信号强度
(3)背景噪声
5.芯片误差分析
1.生物学差异
(1)遗传
(2)环境因素
2.实验系统误差
(1)样本
(2)芯片
(3)杂交过程
(4)检测系统
3.减少误差
(1)生物学重复
(2)实验流程质控
(3)数据处理和矫正
6.数据处理和矫正
1.最简单的方法就是计算整个芯片的信噪比。
2.图形辅助验证:散点图、箱式图、分布密度图等。
3.其他质控条件:相关系数、变异系数、弱信号处理等。
4.数据归一化:
(1)全局归一化法
(2)局部加权归一化法
(3)分位数归一化法
补充
![](https://img.haomeiwen.com/i18110061/0647b201ffc22a0b.png)
![](https://img.haomeiwen.com/i18110061/0328f880a19a15a1.png)
![](https://img.haomeiwen.com/i18110061/71d814e479272144.png)
网友评论