最近在学习cellphoneDB,顺便写一个学习记录吧。
简介
CellPhoneDB是一个可公开获取的受体、配体及其相互作用的存储库。配体和受体都包含亚基结构,准确表征异质配合物。这是至关重要的,因为细胞与细胞之间的交流依赖于多亚基蛋白复合物,而这些复合物超越了大多数数据库和研究中使用的二元表述。
CellPhoneDB集成了与蜂窝通信有关的现有数据集和新的手动审查信息。CellPhoneDB获取信息的数据库有: UniProt, Ensembl, PDB, the IMEx consortium, IUPHAR。CellPhoneDB可用于搜索特定的配体/受体,或查询您自己的单细胞转录组学数据。
安装
注意: 可以使用Python v3.5或更高版本。建议使用python虚拟环境,但是您当然可以省略这些步骤,并立即通过pip进行安装。
#创建cpdb-venv环境
python -m venv cpdb-venv
#激活环境
source cpdb-venv/bin/activate
#安装cellphonedb
pip install cellphonedb
CellPhoneDB的运行方法
(1)如果之前没有激活cpdb-venv环境,请先激活
source cpdb-venv/bin/activate
(2)要使用示例数据,请下载meta/counts测试数据。即
curl https://raw.githubusercontent.com/Teichlab/cellphonedb/master/in/example_data/test_counts.txt --output test_counts.txt
curl https://raw.githubusercontent.com/Teichlab/cellphonedb/master/in/example_data/test_meta.txt --output test_meta.txt
(3) 运行statistical method的例子
cellphonedb method statistical_analysis test_meta.txt test_counts.txt
(4) 没有使用statistical method的例子
cellphonedb method analysis test_meta.txt test_counts.txt
可选参数:
~ Optional Method parameters:
--counts-data: [ensembl | gene_name | hgnc_symbol] counts data 中的基因标识符类型
--project-name: 项目名称,在输出文件夹中创建具有此名称的子文件夹
--iterations: 统计分析迭代次数[1000]
--threshold: 表达特定的配体/受体的细胞%
--result-precision: 结果中保留的小数位数[3]
--output-path: 输出文件路径 [out]
--output-format: 结果文件的输出格式(如果没有扩展名,将添加到文件名中) [txt]
--means-result-name: Means结果文件名[means]
--significant-means-result-name: 有显著意义的means 结果文件名 [significant_means]
--deconvoluted-result-name: Deconvoluted 结果文件名 [deconvoluted]
--verbose/--quiet: 打印或隐藏CellPhoneDB日志 [verbose]
--subsampling: 使二次抽样
--subsampling-log: 启用非对数转换数据输入的子采样log1p !!强制!!
--subsampling-num-pc: 子抽样NumPC参数(要使用的pc数量) [100]
--subsampling-num-cells: 要取样到的细胞数 [1/3 of cells]
~ Optional Method Statistical parameters
--pvalues-result-name: P-values 结果文件名 [pvalues]
--pvalue: P-value阈值 [0.05]
--debug-seed: 调试随机种子-1,要禁用它,请使用一个值>=0 [-1]
--threads: 要使用的线程数 >=1 [-1]
示例:
(1)设置迭代和线程的数量
cellphonedb method statistical_analysis yourmetafile.txt yourcountsfile.txt --iterations=10 --threads=2
(2)子项目文件夹
cellphonedb method analysis yourmetafile.txt yourcountsfile.txt --project-name=new_project
(3)设置输出路径
mkdir custom_folder
cellphonedb method statistical_analysis yourmetafile.txt yourcountsfile.txt --output-path=custom_folder
(4) 二次抽样
cellphonedb method analysis yourmetafile.txt yourcountsfile.txt --subsampling --subsampling-log false --subsampling-num-cells 3000
结果解读
(1)P-value (pvalues.txt), Mean (means.txt), Significant mean (significant_means.txt)
id_cp_interaction: 存储在数据库中的每个交互的唯一CellPhoneDB标识符。
interacting_pair: 由“|”分隔的交互对的名称。
partner A or B: 第一个交互伙伴(A)或第二个交互伙伴(B)的标识符。它可以是:UniProt(前缀 simple:)或复合物complex(前缀 complex:)
gene A or B: 第一个交互伙伴(A)或第二个交互伙伴(B)的基因标识符。该标识符将取决于输入用户列表。
secreted: True 如果其中一个伴侣是secreted。
Receptor A or B: True 如果第一个交互伙伴(A)或第二个交互伙伴(B)被注释为数据库中的一个受体,则为真。
annotation_strategy: 如果CellPhoneDB开发人员对交互进行了注释,则进行策划。否则,就是从其中下载交互的数据库的名称。
is_integrin: True 如果其中一个是整合素
rank: 每个交互作用的有效p值的总数除以细胞类型-细胞类型比较的数量。(只有在significant_means.txt)
means: 所有相互作用伙伴的平均值:平均值是指相应的细胞类型相互作用对中每个伙伴的平均表达值的总平均值。如果其中一个平均值为0,那么总平均值为0。(只有在mean.txt)
p.values: p 所有交互伙伴的p-值: p-值是指在每一对相互作用的细胞类型中相互作用的配体-受体对的富集。(只有在pvalues.txt)
significant_mean: 所有交互伙伴的有效平均值计算。如果p-值< 0.05,即为平均值。或者将值设置为0。(只有在significant_means.txt)
重要的是,相互作用不是对称的。在第一个集群上考虑合作伙伴A表达式,在第二个集群上考虑合作伙伴B表达式。换句话说:
clusterA_clusterB = clusterA expressing partner A and clusterB expressing partner B.
clusterA_clusterB 和 clusterB_clusterA 值是不同的。
(2)Deconvoluted (deconvoluted.txt)
gene_name: 参与所定义的相互作用的一个亚单位的基因标识符。标识符将取决于用户列表的输入。
uniprot: means.csv 文件中 参与定义的交互的子单元之一的UniProt标识符。
is_complex: 如果子单元是复合物的一部分,则为真。如果不是 Single 的,就是复合物的。
protein_name: means.csv 文件中参与所定义的相互作用的一个亚基的蛋白名称
complex_name: 如果子单元是复合物的一部分,则称为复合物。如果不是空的。
id_cp_interaction: 存储在数据库中的每个交互的唯一CellPhoneDB标识符。
mean: 各组相应基因的平均表达量。
绘制统计方法结果
为了绘制统计方法的结果,您需要首先运行统计分析。目前有两种可用的绘制类型: dot_plot和heatmap_plot。
一旦你有了所需的文件( means和 pvaluess),你可以进行如下操作:
cellphonedb plot dot_plot
cellphonedb plot heatmap_plot yourmeta.txt
(1)dot_pot
这种plot类型需要安装ggplot2 R包
你可以使用以下参数调整plot选项:
--means-path: The means output file [./out/means.txt]
--pvalues-path: The pvalues output file [./out/pvalues.txt]
--output-path: Output folder [./out]
--output-name: Filename of the output plot [plot.pdf]
--rows: File with a list of rows to plot, one per line [all available]
--columns: File with a list of columns to plot, one per line [all available]
--verbose / --quiet: Print or hide CellPhoneDB logs [verbose]
可用的输出格式是R的ggplot2包支持的输出格式,其中包括:
pdf
png
jpeg
该格式将从 --output-name参数中推断出来
只绘制所需的行/列(基于示例数据文件中的行和列示例):
cellphonedb plot dot_plot --rows in/rows.txt --columns in/columns.txt
dot_pot
(2)heatmap_plot
这个plot类型需要安装pheatmap R包,使用这个plot类型包括两个特性count和log_count
你可以使用以下参数调整plot选项:
--pvalues-path: The pvalues output file [./out/pvalues.txt]
--output-path: Output folder [./out]
--count-name: Filename of the output plot [heatmap_count.pdf]
--log-name: Filename of the output plot using log-count of interactions [heatmap_log_count.pdf]
--count-network-name: Filename of the output network file [count_network.txt]
--interactions-count-name: Filename of the output interactions-count file [interactions_count.txt]
--pvalue: pvalue threshold to consider when plotting [0.05]
--verbose / --quiet: Print or hide cellphonedb logs [verbose]
可用的输出格式是R的pheatmap包支持的输出格式,其中包括
pdf
png
jpeg
这种格式将从--count-name和--log-name参数中推断出来。
heatmap_plot
使用不同的数据库版本
(1)CellPhoneDB数据库可以通过我们的工具从远程存储库更新。此外,还可以列出和下载可用的版本以供使用。
要使用其中一个版本,用户必须为要执行的方法提供参数 --database <version_or_file>。
如果给定的参数是可读的数据库文件,则按原样使用。否则,它将使用一些与所选版本匹配的版本。
如果所选版本在本地环境中不存在,则将从远程存储库下载该版本。(见下文)。如果没有 --database参数在方法执行中给出,它将使用最新可用的本地版本。
下载的版本将存储在 ~/.cpdb/releases下的用户文件夹中
(2)列出可用的远程版本
从远程存储库中列出可用版本的命令是:
cellphonedb database list_remote
(3) 列出本地可用的版本
从本地存储库中列出可用版本的命令是:
cellphonedb database list_local
(4)下载
从远程存储库下载版本的命令是:
cellphonedb database download
##OR
cellphonedb database download --version <version_spec|latest>
其中version_spec必须是数据库list_remote命令中列出的命令之一。如果没有指定版本,或者使用最新版本作为version_spec,则下载最新可用的版本
cellphonedb应用于自己的单细胞转录组数据
library(Seurat)
library(tidyverse)
#提取肿瘤样本03T
scRNA <- sce
sp1 <- scRNA[,str_detect(colnames(scRNA),'03T')]
sp1_counts <- as.matrix(sp1@assays$RNA@data)
sp1_counts <- data.frame(Gene=rownames(sp1_counts), sp1_counts)
sp1_meta <- data.frame(Cell=rownames(sp1@meta.data), cell_type=sp1@meta.data$new.cluster.ids)
write.table(sp1_counts, "test_counts.txt", row.names=F, sep='\t')
write.table(sp1_meta, "test_meta.txt", row.names=F, sep='\t')
网友评论