杀杀
最近在学习处理Oncoscan的CNV芯片raw data流程,在这里记录一下。
OncoScan数据分析
第一步:chAS
软件:chAS
下载链接和使用文档:
📎oncoscan_console_user_guide.pdf
准备文件 : .CEL格式文件(芯片版本:6.0),每个患者会有A的和C的,示例数据中还包含了白细胞的用于去除假阳性,准备这些文件以导入chAS软件。下载chAS时注意要下载参考基因组文件。
注意设置输出文件夹,参考基因组,以及输出文件的后缀。
在导入AT和GC文件的时候务必注意相同patiend id的要行行对应,不然会跑错。
这边建议是把AT的放一个文件夹,GC放一个文件夹,然后对文件名排序一下,然后检查一下再导入。
然后就让它自己跑,文件多的话要几个小时。
image最后出来的结果就是一些QC的结果,以及可以通过点击export来导出几种文件
包括gene level, probeset level segment level的文件。也可以导出igv能够识别的格式,放进igv中进行查看。
第二步:去除假阳性位点
假阳性位点原本使用nexus软件直接筛选,但是这个软件已经下架了,可选的方法只有将导出文件导入IGV软件进行可视化,然后筛选位点(这一步应该只能筛选片段,不能筛选位点),或者是用R语言处理。
本次实验最终采用了R语言处理的方法。把23个白细胞样本的probeset level文件取出。因为探针水平的log2ratio变化比较大,因此我们选择将探针map到segment level的文件中,取segment level的log2ratio为每个探针的log2ratio。然后将在超过半数(>=12)例中|log2ratio| > 0.1的位点(阈值取0.1是因为师兄发现0.1和nexus中的参数能对上)认为是germline的变异,属于假阳性,在肿瘤样本的位点中应被去除。
去除假阳性位点之后,可以将文件导出,作为ascat的输入文件。
ascat教程 https://github.com/VanLoo-lab/ascat
假阳性segment筛选:segment
第三步:使用ASCAT包推断肿瘤纯度、倍性和等位基因特异性拷贝数谱 ASCAT_2.5.2
输入文件为chas输出的原始探针file,上一步进行了假阳性位点的筛选,这一步直接导入ascat,按照ASCAT推荐文档的格式处理好
https://github.com/VanLoo-lab/ascat/tree/master/ExampleData
ascat.loadData("Tumor_LogR.txt","Tumor_BAF.txt")
同时进行阳性ascat探针的筛选,同时导入肿瘤和白细胞的数据,筛选阴性segment,在肿瘤的ascat结果中去除假阳性,方法为,将假阳性片段(假阳性片段要提前经过筛选,23个样本中,相似片段要在超过12个样本中出现才算假阳性)前后扩大一半,如果肿瘤的segment落在这个扩大的假阳性片段内,则认为是假阳性。
Ascat文件输出后,需要计算片段的拷贝数以及片段内包含的探针数,计算过后将片段文件和探针文件输入GISTIC2进行最后一步计算。
第四步:GISTIC 2.0
在linux系统中安装软件,或者直接使用在线软件分析
https://cloud.genepattern.org/gp/pages/index.jsf?lsid=urn:lsid:broad.mit.edu:cancer.software.genepattern.module.analysis:00125:6.15.28
网友评论