一般拿到单细胞测序,比如10X,之后,下一步就要比对,然后获取read count matrix,可以理解为很多cell的基因表达矩阵。
通常来说,有二种方法:
1. 利用10X自己的cellranger的count进行比对和定量。
path_to_cellranger/cellranger count --id=ABC_baseline1 --sample=ABC_baseline1 --transcriptome=path_to_reference_genome/refdata-cellranger-GRCh38-1.2.0 --fastqs=/jane_doe/study_x/ABC
2. 自己比对和定量
Map RNA-seq reads to reference genome using alignment software such as STAR or tophat, or pseudo-alignment methods (e.g. Kallisto, Salmon) for well annotated transcriptomes, such as human or mouse.
Count the number of reads per gene per sample, for example, by softare HT-seq or R function summarizeOverlaps.
所以我们先尝试一下cellranger。
整体来说,cellranger这个软件内容十分丰富,整合了大量的第三方工具,因此解压需要一段时间,解压完成后导入环境变量,按照官方要求,还要进行安装检测,看一下安装是否完整;
cellranger主要包括:
cellranger mkfastq #将Illumina得到的原始BCL文件转为FASTQ
cellranger count # 比对、过滤、条形码和UMI计数
cellranger aggr # 针对多个样本的情况,把count合并而且标准化成相同的测序深度之后,再计算gene-barcode矩阵
cellranger reanalyze #将count或者aggr得到的gene-barcode 矩阵进行降维、聚类
# 10X Genomics的专属算法和RNA测序比对软件STAR结合,可以得到BAM、MEX、CSV、HDF5、HTML的标准格式的结果。
对于input,cellranger要求fastq格式的数据,可以通过cellranger mkfastq转换、illumina的bcl2fastq转换、已发布数据集、cellranger bamtofastq转换得到。
网友评论