在单细胞转录组数据分析之前,需要做很多准备工作:1)分析环境的搭建以及各个分析软件的安装;2)参考基因组的选择;3)准备待分析的数据;4)搭建分析流程。与常规的RNA-Seq一样,10x单细胞RNA-Seq也需要测序数据比对到参考基因组进行基因的定量。那么参考基因组的质量就对单细胞的分析结果有着重大的影响。本文主要为大家介绍,分析10x单细胞转录组所需的参考基因组的组装。
参考基因组
参考基因组一般包括两个文件:基因组文件和基因注释文件。
1)参考基因组文件
通常是 fasta格式:以>开头的行标注染色体信息,后续行为该条染色体的碱基信息。
2)基因注释文件
通常有GTF(General Transfer Format)和GFF(generalfeature format)两种,其中 GFF 又可分为GFF3 和 GFF2。这些格式大同小异,主要作用就是注释基因组。上述基因组文件中只有每条染色体的碱基序列,并没有各个基因信息;而 GTF/GFF 文件中包含的是每个转录本的信息。
10x官方提供的参考基因组
对于常用的人和小鼠,10x官方提供了经过处理的,可以直接用来定量的参考基因组,可以在以下链接下载:https://support.10xgenomics.com/spatial-gene-expression/software/downloads/latest。
![](https://img.haomeiwen.com/i26982876/f9b2b7c5b90d02a1.png)
人的基因组版本为GRCh38,小鼠的为mm10。都是目前常用的基因组版本,所以如果您研究的是人或者小鼠,可以直接从10x官方下载。
自建参考基因组
如果您希望使用最新的人/小鼠基因组,或者研究的是其他物种,那么就需要自行构建参考基因组了。常用的Ensembl和NCBI数据库都提供了这两种格式的文件。
1)Ensembl
网址:http://asia.ensembl.org
![](https://img.haomeiwen.com/i26982876/f9ece65fbea4fefb.png)
点击Viewfull list of all species,进入搜索列表界面。
![](https://img.haomeiwen.com/i26982876/0510c68946d3713f.png)
可在搜索框中直接输入物种名称,以豚鼠为例,输入cavia porcellus。
![](https://img.haomeiwen.com/i26982876/f3add5e0afa53eb3.png)
点击对应名称,下载参考基因组和基因组注释文件。
![](https://img.haomeiwen.com/i26982876/c1b56745521b1484.png)
下载fasta文件,一般选择*toplevel.fa.gz文件,为参考基因组完整文件,其他rm、sm和分开染色体的文件;sm和rm的意义可看README文件。
![](https://img.haomeiwen.com/i26982876/a1f5a44198a8c7a8.png)
下载注释文件,一般选择*gtf.gz文件即可。
下载植物、微生物或者其他物种的基因组文件可打开网址:http://ensemblgenomes.org/,在该网址中进行搜索和下载。
![](https://img.haomeiwen.com/i26982876/e79ecdcf26d92966.png)
2) NCBI
网址:https://www.ncbi.nlm.nih.gov/。
![](https://img.haomeiwen.com/i26982876/8a735f7536f4dd62.png)
选择Genome标签,输入物种名称。
![](https://img.haomeiwen.com/i26982876/13c900b10f5df16e.png)
点击箭头所示位置下载基因组和基因注释文件。
NCBI下载的基因注释文件一般都是GFF格式,而10x单细胞参考基因组组装需要的是GTF格式的文件,需要格式转换的工具——gffread,这个工具需要在linux操作系统上运行。
a)通过conda安装gffread。
conda install -c bioconda gffread
b) 格式转换,下面这一条命令就可以将gff格式的注释文件转换成gtf格式的文件了。
gffreadgencode.v19.annotation.gff3 -T -o gencode.v19.gtf
c)将gtf格式的文件转换成gff3格式的文件。
gffreadgencode.vM13.annotation.gtf -o gencode.vM13.annotation.gff3
构建参考基因组
处理完GTF文件之后,就可以使用cellranger的mkref命令构建基因组了:
cellrangermkref --genome=cavia_porcellus_output
--fasta=reference/cavia_porcellus/fasta/Cavia_porcellus.Cavpor3.0.dna.toplevel.fa
--genes= reference/cavia_porcellus/genes/Cavia_porcellus.Cavpor3.0.106.gtf
这一步根据基因组的大小,需要的内存和运行时间不同。所以建议在大型工作站或者服务器等配置较高的机器上运行。到这里自己的参考基因组就建好了,下一步就可以执行cellranger对数据进行mapping分析了。
参考资料
Findthe input files -Software -Single Cell Gene Expression -Official 10x GenomicsSupport
刘静 | 文案
![](https://img.haomeiwen.com/i26982876/42f62c019fe5d1be.jpg)
网友评论