转录组组装的完整性是建立在转录组组装质量的基础上的,有好的组装质量才可能获得比较完整的转录组。所以,要评估一个转录组的完整性首先要评估组装质量,再来评估完整性,需要对两者进行综合评估。
转录组组装质量的评估标准
而转录组的组装可以根据参考序列的有无分为无参考序列的组装(de novo 组装)和有参考序列的组装,均有各自的组装完整性的评估指标。无参转录组的组装(de novo)完整性最常用的评估指标有N50和中位长度。
N50:Reads拼接后会获得一些不同长度的转录本。将所有的转录本长度相加,能获得一个转录组总长度。然后将所有的转录本按照从长到短进行排序,如获得Unigene 1,Unigene 2,Unigene 3...………Unigene 25。将Unigene按照这个顺序依次相加,当相加的长度达到Unigene总长度的一半时,最后一个加上的Unigene长度即为转录组的N50。N50越长,组装质量越好。
中位长度:将拼接的转录本从长到短进行排序,排在最中间的转录本的长度即为中位长度。中位长度越长,组装质量越好。
有参转录组的组装不同与de novo组装,它是先将测序reads与参考基因组进行比对,将未能比对上参考基因组的reads进行组装。因此,这里组装质量是针对于基因的新转录本而言,它的评估指标一般是200bp以上,至少有两个外显子,同一个基因的新转录本的表达量是已知转录本表达量的0.3倍以上。
转录组完整性评估方法
类似单个基因可以通过与同源基因的比较,推断其完整性;评估整个转录组的组装完整性,也可以使用类似的思路。
一般可以通过与近缘模式生物同源基因CDS比较来评估unigene组装的完整性,结果如下图。
5637fda463ee4cb6ca08d9763d6309d7.jpg左图横坐标为unigene覆盖深度,纵坐标为unigene与近缘物种同源基因的长度之比。图中每个点代表1个基因。某个基因在纵坐标越接近于1,则说明该unigene与近缘物种同源基因的长度之比越接近1,表明该基因完整性越好。如果这样的基因的比例越高,说明转录组的整体组装完整性越好。
右图也有起到类似的意义。横坐标为同源基因的长度,纵坐标为unigene与近缘物种同源基因的长度之比。图中每一个点代表一个基因,所以,长度比值接近1的基因数越多,说明转录组组装的完整性越好。(这种评估标准与近缘物种的选择有关,参照物种近缘性越好,结果越可靠。)
网友评论