因为是个人的学习笔记,所以只记录自己学习过程中容易混淆的点,不具有连贯性。
1.使用Cell Ranger得到表达矩阵
原始数据格式
4fb2d34cb1f591c5335f1328fc46159b.png- 可以看出,它们的命名格式相对规范,在收到公司的数据后,尽量不要自己更改命名。此外还要注意一个细节,就是存放这些fastq文件的目录应该用第一个下划线_前面的字符串命名,否则后续cell ranger将无法识别目录里面的文件,同时报错。
- cellular barcode(CB,细胞条形码):一个液滴一个码,一个液滴中可能是一个细胞,也可能不止一个。
UMI(单分子识别码)。理论上,一个细胞和一个bead同时包裹进入一个液滴,该bead捕获该单细胞的转录组,最后来源于同一个细胞的序列都带有相同的CB,每条独立的mRNA都具有单独的UMI。 -
上游分析的结果文件
features.tsv.gz存储的是基因信息,因为是cell hashing数据,矩阵最后多了几行tag信息,共33540行。
barcodes.tsv.gz存放的是最后得到的cellular barcode,共10139行。
matrix.mtx.gz为矩阵信息,除前三行外,余下的行数等于feature乘以CB数,第二列表示CB编号,从1到10139,1重复33540次,对应第一列的33540个feature。第三列表示UMI 下面的脚本可以将这三个文件转换为常见的矩阵形式。
image.png
2.doublet检测
3)安装源自Github(https://github.com/)的R包,它的步骤和安装源自Bioconductor的R包类似,需要先安装devtools包,然后用devtools包里的install_github函数来进行安装,具体代码如下:
install.packages('devtools')
library(devtools)
install_github('DoubletFinder')
网友评论