如何从获得的RNA-Seq数据中获得生物学信息
目的:1、找出差异表达基因 2、从基因的表达模式对其进行聚类和分类 3、从通路整体水平进行分析。
数据挖掘常常需要参考已有的生物学知识和初步分析结果反复进行迭代式的改进(iterative improvement) 事实上,这个过程常常被称作基于应用统计学习(Statistical Learning)方法的数据挖掘 与大部分流程都可以标准化的数据处理(Data Processing)不同,在数据挖掘过程中,已有的生物学知识 ——也即所谓的领域知识(domain knowledge)——对于数据的处理、算法模型的选择乃至于参数的设置都十分重要。
具体挖掘方法:
1、identification(鉴定、分类)
根据特定的结构(structural features)、进化特征(evoluationary features)、序列特征(sequence features)
SVM(支持向量学习)方法进行分类:首先选定特征(features selection)
常用鉴定非编码RNA的在线工具:CPC(coding potential calculator)
2、推断鉴定出的ncRNA功能
(1)对于已知作用机制的RNA如miRNA,可以找出与它互补的DNA,从而推导其功能。
(2)利用表达先关性推断功能(表达相关的基因大多具有相关功能)
差异表达基因(differential genes):需要构造一个考虑了方差的统计量(statistic), 而后基于这个统计量的零分布(NULL distribution)来计算每个基因的p-value, 最后选择小于给定cut-off p-value的基因作为有统计显著差异表达的基因。
共表达基因(co-expressed genes):常采用聚类分析方法。 距离度量是聚类方法的核心。 这里的距离度量,是指用来衡量两个基因的表达模式之间的相似程度。 常用的距离度量有欧氏距离,又称绝对距离;和Pearson距离,又称关联距离。 其中欧氏距离关心的是表达量,也就是两个基因在表达水平之间的相似程度 而相关性距离则关心的是表达模式,也就是两个基因在表达变化上的一致性
聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
网友评论