RNA-seq比对/定量工具的选择，好的开始是成功的一半

作者: 生信云笔记 | 来源:发表于2024-07-27 10:36 被阅读0次

RNA-seq流程分析比较之半小时得到差异基因
DNA/RNA序列比对软件整理
2018-10-21
昵称哪个好
Bulk RNA-Seq 差异表达分析流程
开学啦！😳
RNA-seq 检测变异之 GATK 最佳实践流程
R绘图|转录组上游分析结果可视化-双向柱状图
我的简书
好的开始是成功的一半

都4202年了，还需要纠结RNA-seq分析软件的选择么？一般来说无需在软件的选择上纠结，如果数据中的信号比较强，用什么软件都应该能检测到，改变的效应也都应该能get到，不同软件分析的结果之间的区别可能也只是表现为排序前后的细节上。可有时候理想很丰满，现实却很骨感，换个方式复盘一下在所难免。

这个时候，选择好用的工具可以让我们事半功倍，就像标题说的那样，好的开始是成功的一半，前面的步骤秉承保证正确的前提下保留更多的结果，这样后续分析的选择性就越多，获得期望结果的可能性就越大。

RNA-seq除去fastq质控步骤外，前期的工作就是比对/定量了，下面看看不同软件的流程产生结果之间的区别。如下图，方法一：选择kallisto直接定量，方法二：star比对后接featureCounts定量。

可以看出绝大部分在两种方法中都能被检测到，而kallisto检测到的特异性基因更多一些，这些基因在后续分析中多半会作为背景，这对于富集分析来说应该是好事。将两种方法检测到的所有基因的表达值求和：

从上面的图，可以看出kallisto对文库中reads的利用率更高一些，这也许是kallisto可以检测到更多基因的原因。

下面再看另外一个数据的对比情况，其中一种方法采用了hisat2比对后接featureCounts定量。这次数据有8个样本，保留至少在一个样本中有表达值的基因。两种情况检测到的所有基因对比如下：

差别可以说是相当的大了，还是kallisto检测到更多的基因，而且检测的特异性基因要多得多。这其中或许有基因组参考文件不同的因素，版本虽然相同，但不同数据库之间的参考基因组还是有些差别的，不过，话说回来，最大的因素应该还是分析流程的不同，但看到这个结果都有点让人怀疑参考是不是不同版本。将两种方法检测到的所有基因的表达值求和：