美文网首页克隆进化详解
Topic 4. 克隆进化之 Pyclone

Topic 4. 克隆进化之 Pyclone

作者: 桓峰基因 | 来源:发表于2022-03-25 11:42 被阅读0次

    第二个pipeline主要包括Pyclone+ citup+ Timespace,没有先介绍这个主要是因为Timespace之后的展示结果只有一个cluster,并没有在图上展示出来突变基因,但是通过格式的转换可以使用fishplot来绘图。

    PyClone之前分享过安装出现的问题,使用conda安装,过程中会经常报出两类错误,一类是python的版本问题,另一类是依赖包的问题,正常情况下没报出其他错误,之后记得设置一下环境变量即可。

  •  关于安装三步走(conda 安装好的前提条件下)

  • ##You can install PyClone using bioconda.conda install pyclone -c bioconda -c conda-forge#To create the environment execute the following command.conda create -n pyclone -c bioconda -c conda-forge pyclone##Once the environment is created it can be activated using the following command.conda activate pyclone##You can check that PyClone was installed correctly by running the following command which will show the help.PyClone --help
  • 关于输入文件格式

  •     大多数用户将通过创建一组以制表符分隔的(tsv)输入文件来使用PyClone,每个来自癌症的示例都有一个文件。这个文件的有六个必要列,如下。

  • mutation_id:突变的唯一标识符。这在不同的数据集中应该是相同的;

  • ref_counts:与参考等位基因相匹配的位点的Reads数;

  • var_counts:与变异等位基因相匹配的位点的Reads数;

  • normal_cn:该位点在非恶性细胞中的拷贝数,默认是2,除了来自男性的性染色体;

  • minor_cn:肿瘤细胞中次等位基因的拷贝数,该值必须小于等于major_cn列中的值;

  • major_cn:肿瘤细胞中主等位基因的拷贝数,应该大于等于minor_cn列中的值并非0;

  • .............:任何其他列都将被忽略。

  •     pyclone软件中例子的数据格式,对于二倍体生物总拷贝数为 2:

  • 当基因型为 AB 的杂合突变位点时,minor_cn 和 major_cn 分别为 1;

  • 当基因型为 BB 时,minor_cn 为 0,major_cn 为 2。

  • 正常的vcf或是maf文件并未给出minor_cn和major_cn,如果是使用GATK检测出来的CNV,利用其中的Segment_Mean来确定:

  • A. 大于 0 则拷贝数扩增;

    B. 小于 0 则拷贝数缺失;

    C.  -0.2~0.2 之间则认为是正常。

        例子中输入文件格式如下:

  • 关于运行问题

  •     运行PyClone最简单的方法是使用PyClone run_analysis_pipeline管道命令:

    PyClone run_analysis_pipeline --in_files SRR385938.tsv SRR385939.tsv SRR385940.tsv SRR385941.tsv --working_dir pyclone_analysis

        这将执行对输入文件进行预处理、运行MCMC分析以及进行后处理和绘图的步骤,其中两个必须的参数就是:

    ——in_files:一组以空格分隔的tsv文件,按照输入格式进行;

    ——working_dir:结果输出目录。

  • 关于输出结果解读

  •     结果输出四个目录,plots, tables, trace 和 yaml,输出目录如下:

    tree ./pyclone_analysis/├── config.yaml├── plots│   ├── cluster│   │   ├── density.pdf│   │   ├── parallel_coordinates.pdf│   │   └── scatter.pdf│   └── loci│       ├── density.pdf│       ├── parallel_coordinates.pdf│       ├── scatter.pdf│       ├── similarity_matrix.pdf│       ├── vaf_parallel_coordinates.pdf│       └── vaf_scatter.pdf├── tables│   ├── cluster.tsv│   └── loci.tsv├── trace│   ├── alpha.tsv│   ├── labels.tsv.bz2│   ├── precision.tsv.bz2│   ├── SRR385938.cellular_prevalence.tsv.bz2│   ├── SRR385939.cellular_prevalence.tsv.bz2│   ├── SRR385940.cellular_prevalence.tsv.bz2│   └── SRR385941.cellular_prevalence.tsv.bz2└── yaml    ├── SRR385938.yaml    ├── SRR385939.yaml    ├── SRR385940.yaml    └── SRR385941.yaml6 directories, 23 files

        那么输出很多结果文件,这些图表该怎么解读?一开始我也同样是一头雾水,精读两遍文章自然也就迎刃而解了。

        1. 首先看plots文件夹,毕竟人是视觉动物,第一反应看结果肯定是看图,之后在仔细分析表格里面每一列是什么意思,那好吧,先说图。我们发现在子文件夹plots里面有三个pdf命名一致,它们既相同又不同,一个是成cluster来看肿瘤的变化,一个是看每个突变位点在不同时期的变化,如下图表示原发和转移后的细胞患病率变化,横坐标表示0-10个cluster,n=?表示在这个cluster中的位点个数,如下:

            而在loci中的显示是表示每个突变位点在不同时期的肿瘤样本中的患病率,如下:

        为了展示突变位点在每个样本中患病率的变化,换了另一种表示方式,如下图所示:

        为了清晰展示样本间的相关性,利用两两比较的方法,更加明了,如下图:

        在子文件夹loci中的 similarity_matrix.pdf 则展示出突变位点的相似性,如下图所示:

    2. 其次来看tables文件夹里面的内容包括cluster和loci:

        cluster表格共包括5列,看列标ti题大概能够猜出来个一二了,不多说了,cluster如下表格:

    sample_id  cluster_id  size  mean  stdP  0  9  0.5827234338919726  0.2011395581661948M  0  9  0.5620216181730593  0.022505825959573466P  1  21  0.9493719415011851  0.014274417500146715M  1  21  0.943903640072285  0.011447595727377P  2  1  0.6083704796114866  0.21622654156658333M  2  1  0.6819113174118709  0.1970614830681685P  3  1  0.6934913566284961  0.21174795150212852M  3  1  0.5836573603027208  0.2002479260398115P  4  1  0.6016479857255496  0.19179411949834677M  4  1  0.6306959208002222  0.19684284925760237P  5  1  0.6493386083355028  0.2065084864831829

        loci表格有六列,从列标题可以看出,每个位点都会计算出细胞病死率,其中的 cellular prevalence 对后续分析非常重要,我们需要知道每个样本中cellular prevalence 用于后续的分析, 每个位点的病死率如下:

    mutation_id  sample_id  cluster_id  cellular_prevalence  cellular_prevalence_std  variant_allele_frequencychr11:118373752:KMT2A  P  0  0.6268664554082267  0.17451379699996047  0.38chr11:118373752:KMT2A M  0  0.5584357692094578  0.0807181007129833  0.3chr11:22646697:FANCF P  1  0.831426332413044  0.20287070574923566  0.4948453608247423chr11:22646697:FANCF  M  1  0.8055396748981121  0.19891133238533223  0.5213675213675214chr11:533534:HRAS  P  1  0.7883392859508737  0.2206181769487264  0.4423076923076923chr11:533534:HRAS  M  1  0.7494529538314714  0.2102885385217595  0.5170940170940171chr11:69458974:CCND1  P  0  0.6814503430293477  0.2104975247947166  0.4065934065934066chr11:69458974:CCND1 M  0  0.6199602022818561  0.1561749550298039  0.5578231292517006chr11:69463657:CCND1  P  1  0.8681579665909998  0.1663829117085617  0.4330708661417323
  • 关于限制条件

  • 单样本分析:单样本分析的性能较差,如果测序深度较低,例如WGS或外显子组数据,则性能更差。这是克隆推理问题的一般特征,影响所有工具。

  • 无进化树:PyClone不推断克隆系统发育或进化树,需要使用其他软件进行补充:citup/PhyloWGS直接推断树结构。

  •     到此基本上完成使用说明及解读,从结果上来看,我们并未得到想要的克隆进化树以及鱼图,那么下期将讲解怎么才能利用上Pyclone的结果,做出克隆进化的结果,敬请期待明日更新!

        日更不易,点个👍,点个再看,点个转发,谢谢各位小哥哥小姐姐啦!

    Reference:

    Roth A, Khattra J, Yap D, et al. PyClone: statistical inference of clonal population structure in cancer. Nat Methods. 2014;11(4):396-398. doi:10.1038/nmeth.2883

    相关文章

    网友评论

      本文标题:Topic 4. 克隆进化之 Pyclone

      本文链接:https://www.haomeiwen.com/subject/zanrjrtx.html