1、使用HISAT进行测序片段的比对
RNA测序数据分析的第一步是将测序数据比对到参考基因组上,以便于明确它们的位置。
这一步骤的实现有赖于BWT数据结构和FM索引(两个专业名词,无需掌握)
RNA测序的比对软件需要面对的另一个问题是许多RNA测序片段跨越了内含子
HISAT使用了两种索引文件,一大(全基因组索引)一小(局部索引),来解决这一问题。它们均建立于BWT数据结构和FM索引
RNA测序数据的比对可以得到新的剪切位点、转录起始位置和转录终止位置
这一步也可以直接提供注释文件,该注释文件明确了已知基因的位置及其外显子/内含子的边界?(区别)
2、使用StringTie进行转录本组装和计数
每个基因的亚型的表达情况和它们的相对转录丰度对分析十分重要
该软件首先将片段准确地分配至它们的基因座,然后尽可能得将每个基因座连接成基因亚型,用于解释数据。于此步我们也可以提供一个注释文件,其包含了已知基因的外显子-内含子结构及其名称?(区别)
比对完成后可用gffcompare软件去获得一些数据(对应于无参组装)
包括有多少组装好的转录本可以匹配到已注释的基因上(完全的或部分的)以及其中有多少是全新的
GFF文件是一种用tab作为间隔的文件,包含了基因组中基因的位置、属性、转录本、外显子和内含子
merge的操作请看图,这样就可以避免漏掉某些外显子(因为组装不完整)
![](https://img.haomeiwen.com/i15394714/9f3434360c0c530d.png)
merge后由于数目发生了变化,StringTie会对merge后的数据再进行一次丰度估计
3、使用Ballgown进行差异表达分析
探索性分析、可视化和统计建模
该软件可以得到三种文件:
表型数据:样本信息
表达量数据:数量
基因组信息:位置信息
大部分差异分析遵循以下步骤:
数据可视化和检查
差异性的统计学检验
多重检验校正
下游检查和结果总结
网友评论