上一篇讲了GenVisR 基因组数据可视化实战 (一)
是GenVisR画waterfall 图对突变类型和丰度的summary图。今天继续测试其他功能
- lolliplot (mutation hotspot graphic)
准备数据:数据只需要三列:gene, amino_acid_change, transcript_name
image.png画图代码:
# Create input data
data <- brcaMAF[brcaMAF$Hugo_Symbol == "TP53", c("Hugo_Symbol", "amino_acid_change_WU")]
data <- as.data.frame(cbind(data, "ENST00000269305"))
colnames(data) <- c("gene", "amino_acid_change", "transcript_name")
# Call lolliplot
lolliplot(data)
image.png
MAF文件中这三列数据是已有的,我用TCGA下载的MAF数据跟GenVisR官方示例的内容有些不一致:
"gene", "transcript_name", "amino_acid_change". 分别对应我的MAF文件中:Hugo_Symbol, Protein_Change, Annotation_Transcript,
在TCGA下载的MAF中分别是:Hugo_Symbol, HGVSp_Short, Transcript_ID
所以需要稍微调整一下内容:
library(dplyr)
# 随便挑选了一个基因“ATAD3B”
data = maf_file %>% select(Hugo_Symbol, HGVSp_Short, Transcript_ID) %>%
subset(Hugo_Symbol == "ATAD3B") %>% filter(!is.na(HGVSp_Short)) %>%
rename(gene = Hugo_Symbol, amino_acid_change = HGVSp_Short, transcript_name=Transcript_ID)
lolliplot(data)
image.png
可能是这个gene(ATAD3B)有问题,换例子中的TP53试试:
image.png使用自己的数据:该样本TP53基因上只有一个突变,故只有一个点:
data = my_maf %>% select(Hugo_Symbol, Protein_Change, Annotation_Transcript) %>%
subset(Hugo_Symbol =="TP53") %>% filter(!is.na(Protein_Change)) %>%
rename(gene = Hugo_Symbol, amino_acid_change = Protein_Change, transcript_name=Annotation_Transcript)
library(stringr)
# 还要将 转录本id后面的 版本号去掉才行,不然会报错。
data$transcript_name = str_replace_all(data$transcript_name,".8","")
lolliplot(data)
Image.png
网友评论