edgeR的一些小九九

作者: zhym1992 | 来源:发表于2017-11-12 20:56 被阅读1824次

基本上RNA-Seq等等各种测序手段都需要计算差异表达
通常大家常用的软件不外乎cufflinks和几个R包DESeq、EBSeq、edgeR、ballgown。
值得一提的是现在的软件和R包大多需要有生物学重复才能准确计算差异表达情况

目前,我只了解edgeR可以在无生物学重复的情况下计算差异表达。

edgeR 官方发布页[中科大镜像]:http://mirrors.ustc.edu.cn/bioc/packages/release/bioc/html/edgeR.html

简单写一下edgeR的用法

首先,安装edgeR包

source('https://www.bioconductor.org/biocLite.R')
biocLite('edgeR')

随后,读取数据,修饰成如图的模样,列名自己随意定义能够识别对应什么样本就好,行名需要为对应的转录本或者基因的可识别的ID或者名称


由转录本或者其他元件的Count值构成的DataFrame
无生物学重复
library(edgeR)        # 加在edgeR

# counts就是上图的dataframe
# group就是分组,数据来源为几组,就对应的分成几组
# 如果有6组数据,分别来自于三组数据,那么group=c(1, 1, 2, 2, 3, 3),123分别对应来源
y <- DGEList(counts=counts, group=1:2)  

# bcv是官方文档的推荐数值(对应人的,对应其他物种的值不清楚),可以自己调整
bcv = 0.1
et <- exactTest(y, dispersion=bcv^2)

results = et$table

以上,即完成了无生物学重复的差异表达的计算


结果

结果中,有三列

  • logFC是treat/control的log2(Fold Change),并不是简单的count值的对比,而是分别计算了两组的CPM值然后计算的logFC
  • logCPM是CPM值的log2
  • PValue,差异表达的p值

补充,CPM(count per million)CPM = 每个转录本的count值/某样本总count值 * 10^6

如果,还需要计算q值,自行通过R的p.adjust计算一下就好
results$q = p.adjust(results$PValue, method = 'fdr')

相关文章

  • edgeR的一些小九九

    基本上RNA-Seq等等各种测序手段都需要计算差异表达通常大家常用的软件不外乎cufflinks和几个R包DESe...

  • [实践]你行动力的转化好嘛?

    每一天我的心里都有一些小九九,今日的小九九是,怎么样把自己现在做的一些事情与我们的创始人达成共识; ...

  • edgeR

    edgeR 主要是利用了多组实验的精确统计模型或者适用于多因素复杂实验的广义线性模型。 前者叫做“经典edgeR”...

  • edgeR 包——学习

    edgeR:differential analysis of sequence read count data 数...

  • Week 12

    (1) Daniel Harlow & Edger Shaghoulian, Global symmetry, E...

  • 13高通量测序-edgeR文库标准化

    edgeR文库标准化 编写DESeq2(和edgeR)的人意识到他们的工具将用于各种类型的数据集,所以他们希望他们...

  • 5.1.1 edgeR

    样本无重复与DESeq2的对比如下参考文章: https://www.jianshu.com/p/517167c5...

  • 261

    今天早上起来,给浩然检查了课文背诵和小九九,课文背的挺熟的,就是小九九还是不怎么熟,小九九一天一遍书写和背诵...

  • Statquest笔记2—edgeR (No.59)

    Like DEseq2, edgeR does not use RPKM, TPM, etc. This is b...

  • M1芯片还是得x86的R能控住

    还记得在去中山之前,我刚拿到Imac不到一星期,配置电脑的时候发现一些R包死活装不上去,其中的代表就是edgeR,...

网友评论

    本文标题:edgeR的一些小九九

    本文链接:https://www.haomeiwen.com/subject/pqmomxtx.html