inferCNV and clonality analysis:
“使用 10x 数据”部分（inferCNV，https://github.com/broadinstitute/inferCNV）中的建议，从 Seurat 对象中提取原始基因表达数据。对于每位患者，通过 CD3E 的表达高于平均表达 2 个标准差并且没有 PRAME 和 HTR2B 的表达来选择正常参考细胞(选择reference)。对于 inferCNV 分析，使用了以下参数：“denoise”、默认隐藏马尔可夫模型 (HMM) 设置和“cutoff”值 0.1。为了减少假阳性 CNV 调用的可能性，实施了默认的贝叶斯潜在混合模型来识别每个细胞中改变的后验概率。使用阈值的默认值“0.5”过滤低概率 CNV。为了确定每个肿瘤中的克隆 CNV 变化，对 HMM 生成的 CNV 使用了“subcluster”方法。 GRCh38 cytoband information用于将每个 CNV 转换为 p 或 q 臂水平变化，以便根据其位置进行简化。每个 CNV 都被注释为gain或loss。数据转换后，包含相同臂级 CNV 的亚克隆被折叠，树被重组以准确表示亚克隆 CNV 架构。该分析排除了线粒体CNV。对于数据可视化，开发了 UPhyloplot2 (https://github.com/harbourlab/UPhyloplot2) 绘图算法以自动生成肿瘤内进化树。从 inferCNV HMM 子集群 CNV 预测算法策划的臂级 CNV 调用和每个子克隆中的细胞百分比用作输入。为每个样本生成可视化系统发育树的可缩放矢量图形 (.svg) 文件。臂长与细胞百分比加上间隔（圆直径 + 5 像素）成正比。

在文章Single-cell RNA landscape of intratumoral heterogeneity and immunosuppressive microenvironment in advanced osteosarcoma中：

Single-cell copy-number variation (CNV) and clonality analysis:
使用 R 的 inferCNV 包（版本 1.2.2；https://github.com/broadinstitute/inferCNV/wiki）估计成骨细胞和软骨母细胞肿瘤细胞中每个细胞的初始 CNV。计算成骨细胞和软骨细胞肿瘤细胞的CNVs，并以免疫细胞作为参考。在过滤具有 < 2000 个 UMI 的不合格细胞后，使用包括“denoise”、默认隐藏马尔可夫模型 (HMM) 设置和“cutoff”值 0.1 在内的参数执行 inferCNV 分析。为了减少假阳性 CNV 调用，实现了默认的贝叶斯潜在混合模型来识别每个细胞中 CNV 变化的后验概率，默认值为 0.5 作为阈值。为了推断克隆单细胞CNV的变化，应用“subcluster”方法根据HMM生成的CNV值推断子簇细胞。注释gene cytoband information信息，每个 p 或 q 臂水平变化都根据其位置简单地转换为等效的 CNV。每个 CNV 都被注释为gain或loss。数据转换后，包含相同臂级 CNV 的亚克隆被折叠，树被重组以表示亚克隆 CNV 架构。对于数据可视化，遵循了 Durante 等人开发的 UPhyloplot2 算法。（https://github.com/harbourlab/UPhyloplot2）自动生成肿瘤内进化树。从 inferCNV HMM 子集群 CNV 预测算法策划的臂级 CNV 调用和每个子克隆中的细胞百分比用作输入。

我们希望拿到的结果

图片.png

信息量有点庞大，我们先来一步一步的解析：

首先来看基础的CNV分析参数：

“denoise”

(HMM) 设置和“cutoff”值 0.1

贝叶斯潜在混合模型来识别每个细胞中 CNV 变化的后验概率，默认值为 0.5 作为阈值

注意其中参考细胞的选择，可以选择免疫细胞

运行实例

library(infercnv)
#1
infercnv_obj = CreateInfercnvObject(raw_counts_matrix="oligodendroglioma_expression_downsampled.counts.matrix",
                                    annotations_file="oligodendroglioma_annotations_downsampled.txt",
                                    delim="\t",
                                    gene_order_file="gencode_downsampled.EXAMPLE_ONLY_DONT_REUSE.txt",
                                    ref_group_names=c("Microglia/Macrophage","Oligodendrocytes (non-malignant)")
                                    )
#2
infercnv_obj = infercnv::run(infercnv_obj,
                             cutoff=1, 
                             out_dir="try2",
                             cluster_by_groups=F, 
                             analysis_mode="subclusters",
                             denoise=TRUE,
                             HMM=TRUE,
                             num_threads=1)

注意两个参数cluster_by_groups=F，以及analysis_mode="subclusters"，这个参数最终会将肿瘤细胞分为8个cluster(少数情况是7类，如果实在找不出进一步的差别)，每个cluster有各自的CNV模式，如果analysis_mode="samples"，则一个样本不同细胞最终预测的CNV模式是唯一的。另外需要注意的是，一般文章放的热图是去噪后的热图，那张图两种模式没什么区别，因为去噪和预测CNV在inferCNV里面是分开的两步。

inferCNV分析完之后，我们一般会得到如下的三个文件：

17_HMM_predHMMi6.rand_trees.hmm_mode-subclusters.cell_groupings包含了根据CNV分类的结果，一共两列，一列是类别名称(1.1.1.1, 1.1.1.2, 1.1.2.1, 1.1.2.2, 1.2.1.1, 1.2.1.2, 1.2.2.1, 1.2.2.2这8类)，另一列是细胞编号。这个文件不止包含观测，还有参照，参照对应的行要去掉。
HMM_CNV_predictions.HMMi6.rand_trees.hmm_mode-subclusters.Pnorm_0.5.pred_cnv_regions.dat

# cell_group_name cnv_name        state   chr     start   end
# all_observations.all_observations.1.1.1.1       chr1-region_1   2       chr1    14363   145116922
# all_observations.all_observations.1.1.1.1       chr1-region_3   3       chr1    151264273       156182587

第二列是CNV的name，唯一；第一列是CNV所属的group，示例在"subclusters"模式下有7个group；4 5 6列包含CNV的坐标；第三列表示状态：

# State 1: 0x: complete loss
# State 2: 0.5x: loss of one copy
# State 3: 1x: neutral
# State 4: 1.5x: addition of one copy
# State 5: 2x: addition of two copies
# State 6: 3x: essentially a placeholder for >2x copies but modeled as 3x

HMM_CNV_predictions.HMMi6.rand_trees.hmm_mode-subclusters.Pnorm_0.5.pred_cnv_genes.dat

# cell_group_name gene_region_name        state   gene    chr     start   end
# all_observations.all_observations.1.1.1.1       chr1-region_1   2       WASH7P  chr1    14363   29806
# all_observations.all_observations.1.1.1.1       chr1-region_1   2       LINC00115       chr1    14363   29806

每一个group（第一列）, 每一个CNV片段（第二列）上面每一个基因（第四列）的CNV状态（第三列），文件中基因这一列是唯一的。相当于上一个文件细化到基因层面。

需要说明的是，上面三个文件只有第一个文件是画进化树需要的，后面两个文件是为了注释进化树的分枝。

接下来就是要进行长短臂注释了，大家可以看到上述的内容主要是得到了发生CNV的染色体、位置信息以及基因，并没有提到长短臂，这个时候我们就要借助一些方法来注释了，基因的Cytoband格式：

10X单细胞（10X空间转录组）轨迹分析（拟时分析）VECTOR
hello，昨天我们分享了VECTOR的示例代码，文章在10X单细胞（10X空间转录组）轨迹分析（拟时分析）之VE...
10X单细胞（10X空间转录组）基础算法之KL散度
hello，大家好，昨天呢，我们认真分享了有关tSNE的相关知识，文章在10X单细胞（10X空间转录组）降维分析之...
10X单细胞（10X空间转录组）肿瘤数据分析之肿瘤进化树
作者，追风少年i hello，大家好，新的一周，新的开始，脑海里浮现周星驰的一句台词，只有越来越强大，才能越来越童...
10X单细胞（10X空间转录组）聚类分析之scDCC
hi，各位好，今天我们努努力，看一下10X单细胞和10X空间转录组普遍存在的dropout现象对我们数据分析的影响...
单细胞SRR数据拆分
10X单细胞转录组测序数据的 SRA转fastq fastq-dump SRA转fastq 参考链接：10X单细胞...
2022-04-11 Tertiary lymphoid str
文章使用的技术为10x Genomics 的Visium FFPE 空间转录组，是2021年5月推出的。围绕肿瘤的...
10X单细胞空间联合分析之十（RCTD）
hello,上一篇文章中，10X空间转录组数据分析之空间注释（解卷积，STdeconvolve）[https://...
Seurat分析10x Visium空间转录组数据
本教程使用Seurat包进行10x Visium单细胞空间转录组数据分析。这个教程涉及：标准化降维和聚类检...
10X单细胞和10X空间转录组联合分析文章分享
各位同学，大家好，今天我们来分享一篇新的10X单细胞和10X空间转录组联合分析文章，文章在这里Spatiotemp...
10X单细胞（10X空间转录组）空间相关性分析和cellphon
hello，大家好，随着10X单细胞、10X空间转录组如火如荼的进行中，我们的分析内容和手段也要进入深水区了，很多...