除了人类和鼠的数据在cellranger上有索引文件外,我们更多的时候研究的是非模式生物。现在就从头创建一个基因组的索引文件,这里以玉米为例子。
使用的cellranger版本是V7.2.0
1. 创建基因注释文件
cellranger mkgtf ~/maize/genome/Zea_mays.B73_RefGen_v4.42.gtf Zm442.gtf --attribute=gene_biotype:protein_coding
可以通过指定参数--attribute=gene_biotype:protein_coding来只提取编码基因。
2. 创建基因组索引文件
cellranger mkref --genome ref_Zm442 --fasta ~/maize/genome/Zea_mays.B73_RefGen_v4.42.fa --genes Zm442.gtf --nthreads 24 --memgb 64
参数:
--genes 该文件第一步的输出的结果
--genome 是指定输出文件夹名称
--nthreads 指定使用的cpu数量
--memgb 指定使用的内存数量,单位是G.
生成索引文件夹名称是ref_Zm442,文件内容结构如下
[4.0K] ref_Zm442
│ ├── [4.0K] fasta
│ │ ├── [2.0G] genome.fa
│ │ └── [9.2K] genome.fa.fai
│ ├── [4.0K] genes
│ │ └── [ 31M] genes.gtf.gz
│ ├── [ 467] reference.json
│ └── [4.0K] star
│ ├── [1.6K] chrLength.txt
│ ├── [4.8K] chrNameLength.txt
│ ├── [3.2K] chrName.txt
│ ├── [2.9K] chrStart.txt
│ ├── [ 40M] exonGeTrInfo.tab
│ ├── [ 16M] exonInfo.tab
│ ├── [1.9M] geneInfo.tab
│ ├── [2.1G] Genome
│ ├── [1.3K] genomeParameters.txt
│ ├── [ 17G] SA
│ ├── [1.5G] SAindex
│ ├── [6.8M] sjdbInfo.txt
│ ├── [6.7M] sjdbList.fromGTF.out.tab
│ ├── [5.4M] sjdbList.out.tab
│ └── [9.1M] transcriptInfo.tab
3.cellranger进行定量分析
cellranger count \
--id=sample345 \
--transcriptome=database_path \
--fastqs=fastq_path \
--sample=mysample \
网友评论