Q1:转录组测序为什么要设置生物学重复?
A:生物学重复通常是任何生物学实验所必须,目前主流期刊也基本要求生物学重复。生物学重复主要有两个用途:一个是证明所涉及的生物学实验操作不是偶然,而是可重复的。另一个是为了确保后续的差异基因分析得到更可靠的结果。
Q2:样品间的相关性有何意义?如何计算?
A:样品间的相关性反应了样品间的相似程度,即不同处理或组织的样品在表达水平的相似度。相关系数越接近1,样品间的相似度越高,样品间的差异基因也越少。生物学重复间的样品的相关系数应大于生物学重复外的样品的相关系数。相关系数的计算方法有三种:A. Pearson correlation; B. Spearman rank correlation; C. Kendall’s τ。我司使用 R 语言进行Pearson 相关系数的计算。
Q3:原核转录组中的sRNA分析原理是什么?
A:一般使用 Rockhopper 软件发现新的基因间区转录本,通过 Blastx 与 Nr 库比对,对新预测的转本区域进行注释,将未得到注释信息的转录本作为候选的非编码sRNA。由于sRNA 是非编码 RNA,因此只有未比对到 NR 库的基因才可能是 sRNA。通过以上方法得到的候选 sRNA 是有一定假阳性的,需要对其进行后续验证,根据验证结果来判定其否为真实存在的 sRNA。
Q4:为什么转录组数据分析时一般不直接用转录本定量,而要用基因定量分析?
A:基因组比对通过将 reads 比对到完整的基因组序列上,而转录组比对则是把 reads 比对到所有已知的转录本序列上。如果不是只想知道已知转录本表达量,建议使用基因组比对的方法进行分析,理由如下:
(1)转录组比对需要准确的已知转录本的序列,对于来自未知转录本(比如一些未被数据库收录的 lncRNA)或序列不准确的 reads 无法准确比对;
(2)转录组比对不能对转录本的可变剪接进行分析,数据库中未收录的剪接位点会被直接丢弃;
(3)由于同一个基因存在不同的转录本,因此很多 reads 可以同时完美比对到多个转录本,reads 的比对评分会偏低,可能被后续计算表达量的软件舍弃,影响后续分析;
(4)由于与 DNA 测序使用的参考序列不同,因此不利于RNA和DNA数据的整合分析。
Q5:lncRNA建库鉴定得到的mRNA与普通转录组鉴定的mRNA的个数是否在一个数量级?
A: 两个建库方式,当 mRNA 测序量为 6G,lncRNA 测序数据量为 12G 时,两种建库方式 mRNA 的检出个数是十分相近的。选择一个普通转录组测序的项目和一个 lncRNA 建库的项目,lncRNA 项目检出fpkm>=1 的 mRNA 个数为 13000 个,普通转录组建库检出的 fpkm>=1 的 mRNA 的个数为 12000 个。因为物种和组织具有时空表达特异性,因而此数据只作为参考。
Q6: FoldChange 统计和log2(FoldChange) 统计的差异?
A:FoldChange和 log2 (FoldChange) 表达的内容是相同的,都是用来表现组间差异倍数信息的。log2 (FoldChange)相对于FoldChange 而言,仅是对FoldChange进行了取 log2计算,为的是缩小差异倍数之间的跨度值,同时使上调和下调结果更明显,但在进行差异筛选的过程中,同样是按照和FoldChange相同的策略进行筛选的。此外,差异分析结果是仅基于测序数据并结合软件及其算法来获得的结果,是否具有差异,还需要通过实验进行进一步验证。
Q7:计算差异显著性时,为什么p-value值和q-value值有时候会是0呢?
A:差异显著性分析时,在计算软件中,p-value值为0并不意味者P值真的就是0,而是非常接0,比如0.0000001。 p-value值为0说明非常显著,而不是绝对显著因为P值是概率密度函数中拒绝域的面积,不可能是0,只能说非常接近0。为什么不可能是0?因为系数即使再显著,也是一个概率问题,而不是确定性问题。
Q8:lncRNA预测靶基因时的共位置和共表达预测是什么?
co-location(共位置)是指 lncRNA 可能对临近的蛋白编码基因存在调控作用,通过寻找
lncRNA 上下游 100kb 内的基因进行分析;co-expression(共表达)是指 lncRNA 转录后作用于位置较远的靶基因的作用方式,通过多个样本间的表达相关性进行分析,一般在样本数大于 5 时进行此分析。样品数少于5个时,不推荐进行co-expression(trans)的预测,由于co-expression靶向预测是基lncRNA以及mRNA的表达量进行相关性分析,即pearsonz系数的计算,当样品过少时无法准确的计算pearson系数,因此无法进行该项分析。
Q9:什么是FPKM?为什么要计算 FPKM ?
A:FPKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairs sequenced)是指每百万fragments中来自某一基因每千碱基长度的fragments,其同时考虑了测序深度和基因长度对fragments计数的影响,是目前常用的基因表达水平估算方法。原始的 readcount 数据本身由于差异较大,影响因素很多,彼此间缺乏可比性,所以需要基于整体对数据进行校正,主要参考了:1. 整体数据量 2. 基因的长度,从而将单纯的 readcount 转化为更适合进行差异比较的形式(FPKM)。
Q10:为什么miRNA用TPM,lncRNA用FPKM?
A:对于miRNA,归一化表达量= (readcount*1,000,000)/libsize;式中的libsize=某一样品的全部 miRNA的readcount之和; 对于lncRNA/mRNA,由于转录本不像miRNA 那么短,PE150 测序策略下,一条read是无法像 miRNA一样覆盖整条转录本的,于是落在一个基因区域内的read counts 数目取决于基因长度和测序深度。一个基因越长,落在其内部的read counts 数目就会相对越多。因此按照上面miRNA 归一化表达量的公式来给mRNA 和 lncRNA定量便是不准确的,因此需要选用考虑转录本长度因素的定量方式-FPKM。
网友评论