拷贝数的增减官方会被称作copy number gains and losses。拷贝率(copy ratio)通常和真实的拷贝数的关联度一般会受到肿瘤细胞纯度(pure),基因倍数体(ploidy),还有就是亚克隆群体的大小。因为有这些不确定的情况,所以CNVkit的最终结果只提供了log2拷贝率的计算值。于此同时提供了多种计算拷贝数绝对值或者相对增减数量的方法。
在2倍体里,假设纯度是100%,一个纯合样本的CN增加了1,那么拷贝率就变成了2/3,用log2计算的话就是log(3/2)=0.585。相反,如果CN减少了1,那么拷贝率就变成了1/2,log2(1/2)=-1.0。
在CNVkit的Diagram里(如下图),为了避免结果图过于杂乱,默认阈值为0.5来添加基因标签。
diagram
在使用genemetrics
指令的时候,需要根据样本的纯度,倍数体来选择合适的阈值。可以从0.1,0.2来开始过滤基因数量。
要计算每个片段数据可信度的时候,可以使用指令segmetircs
。还可以在指令里添加-ci
来计算可信范围。
最后是call
指令,call
指令会把log2值转换成CN的绝对值。当样本纯度和倍数体的确定的时候就可以这么做。
.cns
文件也可以通过export
指令被转换成BED或者VCF格式。BED,VCF格式的结果会给出每一个片段的CN的绝对值。当然用export
之前最好先根据纯度和倍数体用call
来设置一下阈值。
网友评论