美文网首页
数据过滤

数据过滤

作者: 晓佥 | 来源:发表于2019-06-03 09:16 被阅读0次

二代测序数据过滤

1.基因测序技术

一代测序    sanger测序
二代测序    Roche/454    Illumina      ABI/Solid
三代测序    PacBio/SMRT
其他测序    Ion Torrent

2.二代测序比较

3.测序通用流程

1.制备文库
2.PCR扩增
3.测序及荧光信号判定

4.测序数据错误(针对每项过滤)

1.低质量的序列(low quality reads)
2.重复序列(duplicate reads)
3.核苷酸的插入、删除及替换(insertion、deletion、mismatch)的序列
4.带有人工污染物(如adapter等)的序列
5.其他(交叉互换等)

5.测序数据格式

454:fasta&qual/sff文件
Illumina:fastq文件
Solid:csfasta&qual文件

6.测序数据质量转换

ASCII表

7.低质量的序列(low quality reads)

A:每个碱基位点质量分布,B:序列平均质量密度分布


454测序数据质量分布

A:正链每个碱基位点质量分布,B:正链序列平均质量密度分布
C:反链每个碱基位点质量分布,D:反链序列平均质量密度分布



illumina测序数据质量分布

每个碱基位点质量分布


Solid测序数据质量分布

过滤方法
(1)平均质量和低质量碱基数


平均质量计算公式

低质量碱基数百分百(阈值k):P= N(Q<k)/N总 (N为碱基数)
补充:

(1)Q = -10lg(e)           e为预计碱基检出不正确的概率
(2)去除未识别的非ATCG的碱基N,(P=numN/num)>阈值

(2)滑动窗口算法


8.重复序列(duplicate reads)

(1)重复序列聚类算法



(2)比对后去重复

测序原始数据与参考基因组比对,对生成的**.sam文件做处理,该文件保留了匹配每个位点的相关信息,寻找重复序列并去除就比较容易。下面为picard去重复代码
java –Xmx4g -jar picard-tools-1.70/MarkDuplicates.jar \
MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=8000 \
INPUT= sample01.sort.bam \
OUTPUT= sample01.dedup.bam \
METRICS_FILE= sample01.dedup.metrics
realigned.bam <- realign(dedup.bam) [with known sites included if available]

9.核苷酸的插入、删除及替换(insertion、deletion、mismatch)的序列

10.带有人工污染物(如adapter等)的序列

11.其他(交叉互换等)

12.数据过滤评估

1.过滤后的数据与参考基因组比对,比较比对率的高低
2.被过滤的测序数据所含匹配碱基的数目高低
3.程序运行时间及复杂程度
4.过滤过程及过滤后都可做一些质控分析,用质控数据直观显示过滤状况

质量分析软件-FastQC:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

芯片数据过滤

1.芯片简介

1.涉及生命科学、物理科学、计算机科学、微电子技术、光电技术、材料科学等。
2.现状:21世纪初发展,受二代测序冲击,低迷一段时间,现有回升趋势。
3.原理:杂交测序法。变性DNA,加入探针杂交,退火。

2.芯片分析流程

3.芯片制备过程

1.芯片设计:
          (1)探针的设计
          (2)探针在芯片上的布局
2.注意事项:
          (1)互补性
          (2)敏感性和特异性
          (3)容错性
          (4)可靠性
          (5)可控性
          (6)可读性

4.杂交信号检测

1.现有的杂交信号检查一般都有相应的仪器,做一些图像的识别、处理及分析,提取数字信号得到原始数据。
2.杂交信号探测系统:
(1)杂交信号产生
(2)信号收集及传输
(3)信号处理及成像
3.质控过滤:
(1)软件、硬件、检测扫描系统
(2)信号强度
(3)背景噪声

5.芯片误差分析

1.生物学差异
         (1)遗传
         (2)环境因素           
2.实验系统误差
         (1)样本
         (2)芯片
         (3)杂交过程
         (4)检测系统
3.减少误差
         (1)生物学重复
         (2)实验流程质控
         (3)数据处理和矫正

6.数据处理和矫正

1.最简单的方法就是计算整个芯片的信噪比。
2.图形辅助验证:散点图、箱式图、分布密度图等。
3.其他质控条件:相关系数、变异系数、弱信号处理等。
4.数据归一化:
         (1)全局归一化法
         (2)局部加权归一化法
         (3)分位数归一化法

补充



相关文章

网友评论

      本文标题:数据过滤

      本文链接:https://www.haomeiwen.com/subject/skiwtctx.html