这段时间有点忘了rna-seq的分析了,稍微复习了一下,顺便记录一下几点重要的内容
- 下机数据 fastq 做质量控制,然后做fastqc 检查情况如何
- 比对到参考基因组,看比对率,不同区域的比对率
- 计算基因的表达水平,RPKM 同时考虑 了测序深度和基因长度的影响
-
检查不同生物学重复样本之间的相关性(基于基因的表达水平)
相关系数越接近1, 表明样品之间表达模式相似度越高
摘自互联网.png - 基于基因的表达量,进行样本间聚类分析和PCA分析。可以检查数据是否准确,实验设计是否正确。 摘自互联网.png
-
基因表达标准化,对表达量进行转换,消除非生物学因素引起的差异
-
计算和筛选出差异基因。
指标:
basemean-第六步样本矫正之后的平均reads数
log2foldchange
P-value
p-adj -
可视化,画一个火山图。
检测特定基因在不同实验中的表达情况,检测同一个基因的不同转录本在不同实验中的表达情况 -
差异基因进行聚类分析
有点倒过来的感觉,就是基于这些差异基因在不同的实验条件下表达模式,进行聚类,可以得到基因的功能 -
差异表达基因功能分析
Go分析 kegg 富集分析
11 可变剪切分析,就是在外显子水平检测
12 snp检测
网友评论