各位小伙伴们好,好久没写文章了,前几次我们分享文献的时候都是先看文章,再研究作者为什么要这么分析。今天我们换一个思路,先把真实的数据给你,你会怎么分析?
话不多说,开工!
这是一个真实的数据,病例的是因器官功能障碍入住ICU病房,且预期住院时间>48h的175名重症患者。
研究者分别记录了基线、7天、14天、21天、28天患者的12项生物标志物,(血红蛋白,肌酸酐,白蛋白,白细胞介素-6,促红细胞生成素,铁,总铁结合能力[TIBC],转铁蛋白,铁蛋白,转铁蛋白饱和度,叶酸和维生素B12),同时记录了患者在ICU期间是否进行过红细胞输血。
数据就是这些,相信很多医生都可以拿到类似的数据,下面请大家思考一下,如果你有这些数据,该怎么写出一篇2-3分的文章?
一千个人有一千个哈默雷特,下面我就展示一下我的分析思路,抛砖引玉,希望对大家有所启发。
1.确定XYZ
动手之前,我们先理清头绪:什么是研究的XYZ。
在这个数据中我们不难看出,很多指标都可以当做X,但是的Y只有1个:是否输血。当然,这是因为这个数据只保留了这一个结局,如果大家拿到的原始数据比较多,可以通过查文献的方式确定自己的研究方向,这次不做过多讨论。
确定了研究的结局Y,我们可以开始动手做了。这次分析我使用的是易侕统计软件,是一款基于R语言的软件,大家可以选择自己熟悉的SAS、SPSS,都可以重现。
我把数据导入软件,大概浏览了一下数据的合理性,是否有明显错误,中文符号等,结果不错,这个数据清理的很干净,可以直接分析。
确定Y之后,首先要做的就是找到一个我们感兴趣的X,好在我们的X不多,所以我们可以分别进行一次单因素分析,看看有没有好的结果。
从扫描的结果来看,有6个生物标志物(血红蛋白,白蛋白,IL-6,TIBC,转铁蛋白和铁蛋白水平)都和Y输血量有直接的关系。
2.确定写作思路
有了初步结果,我想到了2个写作方向,第一是在这6个标志物中找到其中最有意思的1个,找找有没有阈值饱和效应,写一篇危险因素的文章。第二个是使用单独或联合多个标志物做一个预测模型。
我简单做了一下文献检索,发现单独研究血红蛋白,白蛋白,IL-6,TIBC,转铁蛋白和铁蛋白水平的危险因素文章已经很多了,没有太多新意,现有的数据中也没有阈值饱和效应等特别的发现。那么剩下的就是第二个思路,预测模型。
3.预测模型的套路
预测模型的做法是有套路的,大家可以看看我之前分享的几篇文献:
从一篇新英格兰文章学习预测模型分析
。做预测模型的时候,我们先分别看一下单个因素的预测效果。如果单个预测AUC达到0.8以上,那么往往可以直接写单因素的预测模型。如果效果不好,可以尝试多种组合方式,找到
指标最少、最易获得的组合
。
4.文章图表的制作
有了结论和思路,文章的图表制作就清晰明了。大家可以查看前几期文献分享稳固而知新。
表1是研究人群描述。需要展示研究的基本情况,在易侕软件中实现非常简单。(不过要注意,因为很多生化指标是偏态的,所以要用Q1-Q3的方式展示)
表2可以放单因素和多因素分析,调整年龄、BMI、既往史等混杂因素。
表3是预测模型的主要结果,我们分别展示着6个因素的AUC。其中TIBC因为AUC达到了0.835,所以我们可以直接用它来作为单一因素预测模型。
图1可以单独展示TIBC的预测模型ROC曲线,文章就全部结束了。
5.总结
上面就是我的分析思路了,当然因为篇幅原因,我简化了思考过程,很多细节没有过多讨论,肯定有不严谨的地方,不过重点在于思考过程的分享,希望对大家有所启发。
这篇文章最后发表在了Plos ONE上面,当然这篇文章和我没有任何关系。只是前两天看文献的时候看到了原始数据,觉得很有趣,所以就把作者的思路重现了一遍,以供大家学习。
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0210067
大家可以对比一下原文和我展示出来的图表,基本上没有差距,只是在展示形式上,作者把表2表3做到了一张表中,这样展示的效率更高,值得学习。
同时,作者还把这175个人分成了建模组和验证组,但是在正文中没有展示图表,而是放在了附表中。
因为推文不能分享PDF,想要文献和原始数据的小伙伴可以加入下面的QQ群,在群文件中免费下载,今后我们也会把一些好的文献发到群里,欢迎加入。
网友评论