测序信息处理可视化
数据格式
- FASTQ和FASTA:均为文本文件,前者用@标记起始,后者用>标记起始。FASTQ不仅存储质量信息,还存储质量分值。
- SAM和BAM:SAM处于存储比对到参考基因组的read,BAM由索引的、压缩的、结构化的SAM数据组成。
- GFF3: 基因组序列和注释信息,可用于图形化。
- SAMtools:文件格式转换软件
可视化软件的选择
种类 |
优点 |
缺点 |
功能相同的软件包 |
最快 |
需求不同,开发和维护成本高 |
脚本语言或跨平台软件包 |
代码相同 |
总体性能一般 |
JAVA |
真正跨平台的开发系统 |
需要高性能JAVA虚拟机 |
分析流程
主要包括三步:测序产生原始reads、reads比对到参考序列或自身比对、比对上reads的可视化及生物学意义阐述
类目 |
描述 |
原始序列 |
包括分析样本的ID、测序片段序列、每个碱基质量估值 |
比对 |
比对到染色体或scaffold、染色体上的比对位置、正反向和比对质量估值 |
ChIP-seq |
染色体位置和正方向信息 |
RNA-seq |
大部分比对到外显子区域 |
具体步骤 |
描述 |
理解和预处理reads |
质控和过滤 |
定位read |
比对到参考序列Bowtie和BWA并不适用,由于剪切位点不存在,Tophat更合适 |
组转和分析转录物 |
Cufflinks套件,组装并估计丰度,检测差异表达 |
下游分析 |
被筛选的基因进行聚类、火山图等可视化分析 |
本文标题:测序信息处理可视化
本文链接:https://www.haomeiwen.com/subject/veparqtx.html
网友评论