第一篇
目的
We aimed to identify a CpG methylation pattern for breast cancer.
数据来源
训练集:TCGA,97 healthy control samples and 786 breast cancer samples in a training cohort
测试集:GSE37754 (GEO llumina Infinium Human Methylation 450 BeadChip)n = 72
方法
1.发现 DMG
用limma包来发现 differentially methylated genes (DMGs)

2.发现共甲基化的基因
WGCNA-Co‑methylated genes
3.预后相关基因
survival包


结果
1.DMG筛选
下面是火山和热图的结果

2. WGCNA的结果
作者放在了附件中

3.挑选DMGs
单因素cox regression挑选了123个,多因素cox regression 挑选了16个,如下图表格

好了,关于之前的教程里面曾经疑惑过 risk score的计算过程,因为那篇文章中并没有列出如上图所示的table中的表格,所以会有疑惑。那么现在可以看到这个计算的由来。

后面省略,就看前两个就是 Coef值。0.9271、0.5220
4.检验模型
根据上面计算得到的risk score 值,最后取一个median 值,这个median值可以将训练集和验证集的病人分成高低风险组,并且通过 ROC曲线中的 AUC来说明这个模型(含有16个甲基化位点)将病人按照高低风险组分类,(这时我的启发是我想起来之前看老大的代码,那个时候有按性别分组的,有按年龄分组的,也有按基因表达量的高低分组的;这个时候呢,是按照一个risk score来分组的,而这个median risk score值,就是根据事先筛选好的甲基化位点,然后计算一个risk score值再求个中位值来的,所以,思路就非常清晰明了了)。

关于上面结果的疑惑:
怎么按照一个median的risk score 值,就恰好将tcga和geo上的数据,全部都正好平均等分到两组了呢?
5.进一步验证模型
结果5是我自己额外划分出的
下面这个table2 的结果文中的描述如下所示
The univariate and multivariate analysis of overall survival by clinical factors in the training is shown in Table 2.其实没啥特别的

但是,作者根据这个表格里的内容挑选出来三项来继续说事,三项是:Age、Radiotherapy、Recurrence.
看一下生存分析的 结果

至于为什么挑选了那三个临床性状,文章中说The stratified analysis of clinical characteristics of
<u>==age ,radiotherapy and recurrence==</u> illustrated that...后面 省略
疑惑:
1.关于stratified是分层的意思,有待后面学习到理解
2.这三个性状应该是根据table2来筛选出来的,那么这个根据怎么样的值筛选的呢?
不过关于上面图片的解说 ,单纯拿第二个性状还是看英文原文的解释吧
The patients with radiotherapy compared with the patients without radiotherapy were associated with improved overall survival (HR: 0.418, 95% CI 0.249 to 0.703; p = 6.991e–04) in patients with a high-risk score but not in patients with low-risk score (HR: 2.092, 95% CI 0.574 to 7.629; p = 0.253).
感觉回到考研时复习英语的长难句了😅,本来如果断句断道最后一个but前,我都理解了,结果又来个but 从句,不过呢,这么简洁的表达还是要给他拿下的,值得借鉴。
再把截图放一下

长难句也不难,结合图来看
翻译:在高风险组,存在这样一种生存相关,就是经过放疗治疗的患者的生存要高于未经放疗治疗的患者,而这种情况只存在于高风险嘴,对于低风险组是不存在的。
翻译过来后再解释下,基于我自己的理解
1.怎么看 在高风险组,经过放疗治疗的患者的生存要高于未经放疗治疗的患者 ?
答:看高风险组的图,风险组看HR,小于0,说明经过放疗(红色)的患者的病死率是未经放疗(黑色)的患者的0.418倍,小于1.
关于HR要知道的是:
如 HR<1,说明该变量为保护因素,如果 HR>1,说 明该变量为危险因素
2.为什么 低风险组是不存在同高风险组一样的情况 的呢?
定位到低风险组的图,虽然HR的值是2.092,这里面的说法就与高风险组的说法相反,图中的HR描述的意思是经过放疗(红色)的患者的病死率是未经放疗(黑色)的患者的2.092倍。但是非常重要的是p=0.253,p值大于0.05,那么也就是说在低风险组,这个放疗与否不能作为影响患者生存的独立危险因素。
总结
关于这篇文章的收获是,确定了学到的,然后增加了新的理解,就是根据模型划分出高低风险组后,分别对性状进行生存分析。也有几点疑惑,应该后面会有所解决,先记录下。
疑惑:
1.怎么按照一个median的risk score 值,就恰好将tcga和geo上的数据,全部都正好平均等分到两组了呢?
2.关于stratified是分层的具体应用
3.这三个性状应该是根据table2来筛选出来的,那么这个根据怎么样的值筛选的呢?未在文章中加以说明的是因为什么去掉了呢?
网友评论