美文网首页
TCGA微卫星不稳定灶(MSI)数据处理

TCGA微卫星不稳定灶(MSI)数据处理

作者: 生信小鹏 | 来源:发表于2022-12-03 10:10 被阅读0次

基本概念

微卫星(Microsatellite):基因组中的一类短串联重复DNA序列,一般由1-6个核苷酸组成,呈串联重复排列。由于其核心重复单元重复次数差异,微卫星具有群体多态性。

微卫星不稳定性(Microsatellite Instability,MSI):是指由于在DNA复制时插入或缺失突变引起的MS序列长度改变的现象,常由错配修复(MMR)功能缺陷引起。MSI现象于1993年被Jacobs等人在结直肠癌中首次发现,与癌症发生有关,可用于癌症检测。

产生原因:MSI的发生是由于肿瘤组织的DNA错配修复出现功能性缺陷导致。

这是对MSI泛癌的研究
Landscape of Microsatellite Instability Across 39 Cancer Types - PMC (nih.gov)
需要了解的知识:
1.计算MSI分数的工具:MANTIS,默认阈值0.4,高于阈值为MSI-H,低于阈值为MSS(无明显的MSI出现)。
2.最早再结直肠癌种发现,是预后良好的标志,MSI结直肠癌5年生存率要显著高于MSS结直肠癌,MSI-H结直肠癌比MSS结直肠癌有更好的预后。

数据获取

对于数据分析,首先要得到数据

之前习惯性的在UCSC 数据库中下载数据,没有发现相关msi的数据信息。搜索之后,发现有用cBioPortalData package这个包进行临床数据下载,其中有MSI的数据。

实战操作

安装

BiocManager::install("cBioPortalData")
library(cBioPortalData)

获得相应的研究信息

cbio <- cBioPortal()
studies = getStudies(cbio)
head(studies$studyId)

相应的研究信息类型在cancerTypeId这个字段,可以看一下都有什么样的研究类型

table(studies$cancerTypeId)

选择一种类型,进行下载

id = "blca_tcga_pan_can_atlas_2018"
clinical = clinicalData(cbio, id)
colnames(clinical)

我下载的是膀胱癌相关数据,可以根据cancerTypeId选择合适的研究
然后,定义MSI相关的类型

df = na.omit(clinical[,c("patientId","MSI_SCORE_MANTIS")])
colnames(df)[2] = "MSI_score"
df$MSI_score = as.numeric(df$MSI_score)
k= df$MSI_score >0.4
table(k)

发现膀胱癌相关的MSI大于0.4的并不多,可能和相应的肿瘤有一定的关系,后续研究中再深入思考一下。

后记

其实,上面已经得到了相应的数据,可以根据自己的研究,再看看有什么有趣的发现。

但是始终没有从UCSC上面得到这一部分数据,不知道是自己还没找到,还是本身就没有这一部分数据。有了解的也可以指导一下。

参考文章
100篇泛癌研究文献解读之微卫星不稳定性
cBioPortal 数据库 API 使用
TCGA的微卫星不稳定性数据获取和可视化

相关文章

网友评论

      本文标题:TCGA微卫星不稳定灶(MSI)数据处理

      本文链接:https://www.haomeiwen.com/subject/ndiufdtx.html