STARsolo是一个集成在RNA-seq比对工具STAR中的单细胞/核RNA-seq数据的基因表达定量分析工具。它提供了一个全面的"一站式"解决方案,可以完成从reads比对到基因表达定量的全流程分析。
STARsolo: accurate, fast and versatile mapping/quantification of single-cell and single-nucleus RNA-seq data | bioRxiv
STARsolo的主要特点包括:
-
高精度:通过模拟数据测试,证明了STARsolo在定量基因表达方面优于其他基于转录组伪比对的工具。
-
兼容性:STARsolo的结果与当前最流行的10X Genomics的Cell Ranger工具高度一致,可以作为其替代品使用。但是速度据说比cellranger快十倍
-
全面性:STARsolo可以处理UMI和cell barcode信息,适用于多种主流的scRNA-seq建库方案,并可扩展到新技术。
-
多基因reads:STARsolo能考虑比对到多个基因的reads,这对某些特殊基因的检测很重要,而许多其他工具忽略了这一点。
-
高效性:得益于比对和定量过程的无缝整合,STARsolo拥有极高的计算效率,速度远超CellRanger等流行工具。
-
功能多样性:除了常规的基因表达定量,STARsolo还可以分析其他转录组特征,如细胞类型特异性的可变剪接。
STARsolo可以执行从读取到数字基因表达量(Digital Gene Expression,DGE)矩阵的全流程分析。这包括读取对齐、UMI(Unique Molecular Identifier)处理、细胞和分子条形码识别以及基因量化,它整合了这些步骤为一个高效的流程。
以下是STARsolo工作流程的主要步骤:
-
读取映射:首先,STARsolo将读取(reads)映射到参考基因组上,类似于STAR对齐器在其他应用中的行为。这包括识别剪接位点和对齐到外显子。
-
细胞和UMI条码处理:然后,STARsolo处理3'端或5'端的单细胞RNA测序数据中的细胞条形码(cell barcodes)和UMI。它会对这些序列进行质量控制,校正潜在的错误,并将它们分配给特定的细胞和分子。
-
基因量化:STARsolo使用对齐的读取和处理后的条形码来量化基因表达。它统计每个细胞中每个基因的UMI数量,生成一个DGE矩阵,其中行代表基因,列代表单个细胞。
-
结果输出:最终,STARsolo输出一个包含了所有识别的细胞的基因表达矩阵,这个矩阵可
以直接用于后续的分析,如聚类、细胞类型鉴定、差异表达分析等。
运行 STARsolo 从 FASTQ 文件生成基因计数矩阵 — Cumulus 2.5.0 文档
# 设置使用的线程数(CPU数量)
STAR --runThreadN $CPUS
# 指定包含索引化基因组文件的目录
--genomeDir $REF
# 指定用于映射的输入读取文件
--readFilesIn $R1 $R2
# 设置输出文件的目录权限(所有用户读写执行)并指定文件格式(GZIP压缩,BAM格式)
--runDirPerm All_RWX $GZIP $BAM
# 启用solo(单细胞)分析选项
--soloBarcodeMate 1
--clip5pNbases 39 0
--soloType CB_UMI_Simple
--soloCBwhitelist $BC
--soloCBstart 1
--soloCBlen $CBLEN
--soloUMIstart $((CBLEN+1))
--soloUMIlen $UMILEN
--soloStrand Forward
--soloUMIdedup 1MM_CR
--soloCBmatchWLtype 1MM_multi_Nbase_pseudocounts
--soloUMIfiltering MultiGeneUMI_CR
--soloCellFilter EmptyDrops_CR
# 设置最小对齐得分阈值
--outFilterScoreMin 30
# 指定输出中要包含的特征(基因,完整基因,Velocyto分析)
--soloFeatures Gene Velocyto
# 指定solo分析的输出文件名
--soloOutFileNames output/ features.tsv barcodes.tsv matrix.mtx
# 启用多映射处理,使用期望最大化(EM)算法
--soloMultiMappers EM
# 指定如何输出未映射的读取(Fastx格式)
--outReadsUnmapped Fastx
网友评论