需求
由于某些特定的环境,可能老师能够得到完整的细胞核,得不到完整的细胞,但是又想研究其细胞的单细胞转录组,就只能用细胞核进行10xGenomics单细胞转录组分析;或者有的老师就想研究细胞核内的mRNA与胞质mRNA(或者成熟mRNA)的差异或者调控的差异,也需要研究细胞核的mRNA。
方法策略
不管是细胞核内还是胞质的mRNA,本质都是mRNA,都是从基因组上转录下来的序列,序列有相同的也有不同的,我们现在研究细胞核的mRNA,就需要考虑他们之间的差异,我们为什么不能直接用胞质mRNA的方法研究细胞核mRNA呢?主要是由于细胞核内的mRNA不是成熟的mRNA,是前提mRNA,除了有外显子序列以外,还有很多内含子(mRNA加工过程简介),而10xGenomics单细胞转录组比对的时候是考虑的外显子比对,因此如果直接用胞质mRNA比对方法进行细胞核mRNA比对,将会比对率低的情况。
针对这个问题,10xGenomics官方提供了解决方案:Cell Ranger compatible "pre-mRNA" reference,既然是由于外显子比对的问题,那么就解决比对情况即可。因此10xGenomics官方建议我们直接在修改参考基因组,直接提取gtf中第三列为transcript的行,然后将transcript改成外显子,这样这些聚类就是基因组上序列,包含了内含子序列。
建议命令:
awk 'BEGIN{FS="\t"; OFS="\t"} $3 == "transcript"{ $3="exon"; print}' \
refdata-cellranger-GRCh38-1.2.0/genes/genes.gtf > GRCh38-1.2.0.premrna.gtf
#完成对gtf文件进行处理后,然后重新生成参考基因组,命令如下
cellranger mkref --genome=GRCh38-1.2.0_premrna \
--fasta=refdata-cellranger-GRCh38-1.2.0/fasta/genome.fa \
--genes=GRCh38-1.2.0.premrna.gtf
然后用新的参考基因组进行比对,做后续分析。
结果比较
为了比较评估此方法的可行性,我们用新生成的参考基因组(mRNA)和之前普通的10xGenomics参考基因组(pre_mRNA)进行分别进行分析,然后看结果的差异。
mRNApre_mRNA
从上述两个图看出,二者之间的结果差异挺大,主要体现在基因中位数,
mRNA:759
pre_mRNA:2123,
造成这个原因是比对到转录本的序列多少不同,其中比对到转录本的比对率(Reads Mapped Confidently to Transcriptome)分别为:
mRNA:17.6%
pre_mRNA:63.1%
从上述结果来看,如果研究细胞核mRNA或者说研究前体mRNA,按照上述方法对参考基因组进行处理是很有必要的。
参考文档
Cell Ranger compatible "pre-mRNA" reference
2019年6月3日
网友评论