第二个pipeline主要包括Pyclone+ citup+ Timespace,没有先介绍这个主要是因为Timespace之后的展示结果只有一个cluster,并没有在图上展示出来突变基因,但是通过格式的转换可以使用fishplot来绘图。
PyClone之前分享过安装出现的问题,使用conda安装,过程中会经常报出两类错误,一类是python的版本问题,另一类是依赖包的问题,正常情况下没报出其他错误,之后记得设置一下环境变量即可。
关于安装三步走(conda 安装好的前提条件下)
##You can install PyClone using bioconda.
conda install pyclone -c bioconda -c conda-forge
#To create the environment execute the following command.
conda create -n pyclone -c bioconda -c conda-forge pyclone
##Once the environment is created it can be activated using the following command.
conda activate pyclone
##You can check that PyClone was installed correctly by running the following command which will show the help.
PyClone --help
关于输入文件格式
大多数用户将通过创建一组以制表符分隔的(tsv)输入文件来使用PyClone,每个来自癌症的示例都有一个文件。这个文件的有六个必要列,如下。
mutation_id:突变的唯一标识符。这在不同的数据集中应该是相同的;
ref_counts:与参考等位基因相匹配的位点的Reads数;
var_counts:与变异等位基因相匹配的位点的Reads数;
normal_cn:该位点在非恶性细胞中的拷贝数,默认是2,除了来自男性的性染色体;
minor_cn:肿瘤细胞中次等位基因的拷贝数,该值必须小于等于major_cn列中的值;
major_cn:肿瘤细胞中主等位基因的拷贝数,应该大于等于minor_cn列中的值并非0;
.............:任何其他列都将被忽略。
pyclone软件中例子的数据格式,对于二倍体生物总拷贝数为 2:
当基因型为 AB 的杂合突变位点时,minor_cn 和 major_cn 分别为 1;
当基因型为 BB 时,minor_cn 为 0,major_cn 为 2。
正常的vcf或是maf文件并未给出minor_cn和major_cn,如果是使用GATK检测出来的CNV,利用其中的Segment_Mean来确定:
A. 大于 0 则拷贝数扩增;
B. 小于 0 则拷贝数缺失;
C. -0.2~0.2 之间则认为是正常。
例子中输入文件格式如下:
关于运行问题
运行PyClone最简单的方法是使用PyClone run_analysis_pipeline管道命令:
PyClone run_analysis_pipeline --in_files SRR385938.tsv SRR385939.tsv SRR385940.tsv SRR385941.tsv --working_dir pyclone_analysis
这将执行对输入文件进行预处理、运行MCMC分析以及进行后处理和绘图的步骤,其中两个必须的参数就是:
——in_files:一组以空格分隔的tsv文件,按照输入格式进行;
——working_dir:结果输出目录。
关于输出结果解读
结果输出四个目录,plots, tables, trace 和 yaml,输出目录如下:
tree ./pyclone_analysis/
├── config.yaml
├── plots
│ ├── cluster
│ │ ├── density.pdf
│ │ ├── parallel_coordinates.pdf
│ │ └── scatter.pdf
│ └── loci
│ ├── density.pdf
│ ├── parallel_coordinates.pdf
│ ├── scatter.pdf
│ ├── similarity_matrix.pdf
│ ├── vaf_parallel_coordinates.pdf
│ └── vaf_scatter.pdf
├── tables
│ ├── cluster.tsv
│ └── loci.tsv
├── trace
│ ├── alpha.tsv
│ ├── labels.tsv.bz2
│ ├── precision.tsv.bz2
│ ├── SRR385938.cellular_prevalence.tsv.bz2
│ ├── SRR385939.cellular_prevalence.tsv.bz2
│ ├── SRR385940.cellular_prevalence.tsv.bz2
│ └── SRR385941.cellular_prevalence.tsv.bz2
└── yaml
├── SRR385938.yaml
├── SRR385939.yaml
├── SRR385940.yaml
└── SRR385941.yaml
6 directories, 23 files
那么输出很多结果文件,这些图表该怎么解读?一开始我也同样是一头雾水,精读两遍文章自然也就迎刃而解了。
1. 首先看plots文件夹,毕竟人是视觉动物,第一反应看结果肯定是看图,之后在仔细分析表格里面每一列是什么意思,那好吧,先说图。我们发现在子文件夹plots里面有三个pdf命名一致,它们既相同又不同,一个是成cluster来看肿瘤的变化,一个是看每个突变位点在不同时期的变化,如下图表示原发和转移后的细胞患病率变化,横坐标表示0-10个cluster,n=?表示在这个cluster中的位点个数,如下:
而在loci中的显示是表示每个突变位点在不同时期的肿瘤样本中的患病率,如下:
为了展示突变位点在每个样本中患病率的变化,换了另一种表示方式,如下图所示:
为了清晰展示样本间的相关性,利用两两比较的方法,更加明了,如下图:
在子文件夹loci中的 similarity_matrix.pdf 则展示出突变位点的相似性,如下图所示:
2. 其次来看tables文件夹里面的内容包括cluster和loci:
cluster表格共包括5列,看列标ti题大概能够猜出来个一二了,不多说了,cluster如下表格:
sample_id cluster_id size mean std
P 0 9 0.5827234338919726 0.2011395581661948
M 0 9 0.5620216181730593 0.022505825959573466
P 1 21 0.9493719415011851 0.014274417500146715
M 1 21 0.943903640072285 0.011447595727377
P 2 1 0.6083704796114866 0.21622654156658333
M 2 1 0.6819113174118709 0.1970614830681685
P 3 1 0.6934913566284961 0.21174795150212852
M 3 1 0.5836573603027208 0.2002479260398115
P 4 1 0.6016479857255496 0.19179411949834677
M 4 1 0.6306959208002222 0.19684284925760237
P 5 1 0.6493386083355028 0.2065084864831829
loci表格有六列,从列标题可以看出,每个位点都会计算出细胞病死率,其中的 cellular prevalence 对后续分析非常重要,我们需要知道每个样本中cellular prevalence 用于后续的分析, 每个位点的病死率如下:
mutation_id sample_id cluster_id cellular_prevalence cellular_prevalence_std variant_allele_frequency
chr11:118373752:KMT2A P 0 0.6268664554082267 0.17451379699996047 0.38
chr11:118373752:KMT2A M 0 0.5584357692094578 0.0807181007129833 0.3
chr11:22646697:FANCF P 1 0.831426332413044 0.20287070574923566 0.4948453608247423
chr11:22646697:FANCF M 1 0.8055396748981121 0.19891133238533223 0.5213675213675214
chr11:533534:HRAS P 1 0.7883392859508737 0.2206181769487264 0.4423076923076923
chr11:533534:HRAS M 1 0.7494529538314714 0.2102885385217595 0.5170940170940171
chr11:69458974:CCND1 P 0 0.6814503430293477 0.2104975247947166 0.4065934065934066
chr11:69458974:CCND1 M 0 0.6199602022818561 0.1561749550298039 0.5578231292517006
chr11:69463657:CCND1 P 1 0.8681579665909998 0.1663829117085617 0.4330708661417323
关于限制条件
单样本分析:单样本分析的性能较差,如果测序深度较低,例如WGS或外显子组数据,则性能更差。这是克隆推理问题的一般特征,影响所有工具。
无进化树:PyClone不推断克隆系统发育或进化树,需要使用其他软件进行补充:citup/PhyloWGS直接推断树结构。
到此基本上完成使用说明及解读,从结果上来看,我们并未得到想要的克隆进化树以及鱼图,那么下期将讲解怎么才能利用上Pyclone的结果,做出克隆进化的结果,敬请期待明日更新!
日更不易,点个👍,点个再看,点个转发,谢谢各位小哥哥小姐姐啦!
Reference:
Roth A, Khattra J, Yap D, et al. PyClone: statistical inference of clonal population structure in cancer. Nat Methods. 2014;11(4):396-398. doi:10.1038/nmeth.2883
网友评论