如何结合PCA和tSNE进行降维?
如果表达矩阵过大(几千个细胞x几万个基因),用tSNE降维将会非常慢。这是可以先用PCA降维至20个左右的成分,再用tNSE降维。
这种做法是否由于单用tSNE降维?优点是否只存在于运行速度上?
第二节.数据下载
注意在geo里搜索‘breast cancer scrna-seq’和‘breast cancer single cell rna sequencing’,得到的结果是不一样的。
找细胞数目比较多的:
1534个
在这个GSE里,样本的命名是很规范的,正好是样品名称_细胞编号,如果GSE里样本命名并非如此,要改成这样,因为后边的表达矩阵要用到这种形式。
数据命名
第三节:数据处理
查看下载的count矩阵是否为以下形式,此外,如果矩阵中有注释行,要删除:
count矩阵
如果下载的矩阵,第一列不是基因名,而是ensembleID,如下所示:
ensembleID
那么就采用scRNA.idTrans.pl这个脚本转换,输入文件为matrix.txt表达矩阵和human.gtf人参考基因组,输出文件为转换ID后的geneMatrix.txt。
网友评论