STARsolo

作者: 可能性之兽 | 来源:发表于2024-04-07 14:28 被阅读0次

    STARsolo是一个集成在RNA-seq比对工具STAR中的单细胞/核RNA-seq数据的基因表达定量分析工具。它提供了一个全面的"一站式"解决方案,可以完成从reads比对到基因表达定量的全流程分析。
    STARsolo: accurate, fast and versatile mapping/quantification of single-cell and single-nucleus RNA-seq data | bioRxiv

    STARsolo的主要特点包括:

    1. 高精度:通过模拟数据测试,证明了STARsolo在定量基因表达方面优于其他基于转录组伪比对的工具。

    2. 兼容性:STARsolo的结果与当前最流行的10X Genomics的Cell Ranger工具高度一致,可以作为其替代品使用。但是速度据说比cellranger快十倍

    3. 全面性:STARsolo可以处理UMI和cell barcode信息,适用于多种主流的scRNA-seq建库方案,并可扩展到新技术。

    4. 多基因reads:STARsolo能考虑比对到多个基因的reads,这对某些特殊基因的检测很重要,而许多其他工具忽略了这一点。

    5. 高效性:得益于比对和定量过程的无缝整合,STARsolo拥有极高的计算效率,速度远超CellRanger等流行工具。

    6. 功能多样性:除了常规的基因表达定量,STARsolo还可以分析其他转录组特征,如细胞类型特异性的可变剪接。

    STARsolo可以执行从读取到数字基因表达量(Digital Gene Expression,DGE)矩阵的全流程分析。这包括读取对齐、UMI(Unique Molecular Identifier)处理、细胞和分子条形码识别以及基因量化,它整合了这些步骤为一个高效的流程。

    以下是STARsolo工作流程的主要步骤:

    1. 读取映射:首先,STARsolo将读取(reads)映射到参考基因组上,类似于STAR对齐器在其他应用中的行为。这包括识别剪接位点和对齐到外显子。

    2. 细胞和UMI条码处理:然后,STARsolo处理3'端或5'端的单细胞RNA测序数据中的细胞条形码(cell barcodes)和UMI。它会对这些序列进行质量控制,校正潜在的错误,并将它们分配给特定的细胞和分子。

    3. 基因量化:STARsolo使用对齐的读取和处理后的条形码来量化基因表达。它统计每个细胞中每个基因的UMI数量,生成一个DGE矩阵,其中行代表基因,列代表单个细胞。

    4. 结果输出:最终,STARsolo输出一个包含了所有识别的细胞的基因表达矩阵,这个矩阵可
      以直接用于后续的分析,如聚类、细胞类型鉴定、差异表达分析等。

    运行 STARsolo 从 FASTQ 文件生成基因计数矩阵 — Cumulus 2.5.0 文档

    # 设置使用的线程数(CPU数量)
    STAR --runThreadN $CPUS 
    
    # 指定包含索引化基因组文件的目录
    --genomeDir $REF 
    
    # 指定用于映射的输入读取文件
    --readFilesIn $R1 $R2 
    
    # 设置输出文件的目录权限(所有用户读写执行)并指定文件格式(GZIP压缩,BAM格式)
    --runDirPerm All_RWX $GZIP $BAM 
    
    # 启用solo(单细胞)分析选项
    --soloBarcodeMate 1 
    --clip5pNbases 39 0 
    --soloType CB_UMI_Simple 
    --soloCBwhitelist $BC 
    --soloCBstart 1 
    --soloCBlen $CBLEN 
    --soloUMIstart $((CBLEN+1)) 
    --soloUMIlen $UMILEN 
    --soloStrand Forward 
    --soloUMIdedup 1MM_CR 
    --soloCBmatchWLtype 1MM_multi_Nbase_pseudocounts 
    --soloUMIfiltering MultiGeneUMI_CR 
    --soloCellFilter EmptyDrops_CR 
    
    # 设置最小对齐得分阈值
    --outFilterScoreMin 30 
    
    # 指定输出中要包含的特征(基因,完整基因,Velocyto分析)
    --soloFeatures Gene Velocyto 
    
    # 指定solo分析的输出文件名
    --soloOutFileNames output/ features.tsv barcodes.tsv matrix.mtx 
    
    # 启用多映射处理,使用期望最大化(EM)算法
    --soloMultiMappers EM 
    
    # 指定如何输出未映射的读取(Fastx格式)
    --outReadsUnmapped Fastx
    

    https://cloud.tencent.com/developer/article/2366729

    相关文章

      网友评论

          本文标题:STARsolo

          本文链接:https://www.haomeiwen.com/subject/qaaztjtx.html