179：生存分析基础知识（一）

作者: SASPRO的打工人生活 | 来源:发表于2022-12-19 21:58 被阅读0次

179：生存分析基础知识（一）
生存分析（2）
TCGA生存分析③
生存分析（一）-- 生存分析基础
TCGA生存分析②
TCGA数据挖掘（4）：生存分析
生存分析一
我不相信kmplot这个网页工具的结果
为什么不用TCGA数据库来看感兴趣基因的生存情况
生存分析和风险评估

我们这行闲的时候闲的要死，忙起来也能要人命，就是突然从一种极端状态跳转到另一种极端状态。S(F)H(U)I(C)T(K)!

大家这段时间尽量别感染了（我目前还坚挺着），年底多项目急着交付，可别发着烧还要赶项目，那真是要命了。

昨天看了一下生存分析的书，了解了一些基础，感觉可以分享给大家，让大家对生存分析有一些基本概念，写出来也加深一下自己的理解。

》》》》》》》》》》》》》》》》》》

生存分析是研究事件发生和时间的一类统计方法，最常用于死亡研究。对于我们临床行业来说，该方法常用于肿瘤项目。但是实际上，生存分析还常用于设备故障（完好到何时发生故障，下面几个例子性质相同）、地震、交通事故、股票市场、结婚、犯罪被逮捕等等，可以说应用非常广泛。

生存分析数据就来自事件的发生与否，那么什么是事件？如何区分？我们在写ADTTE的时候，也会经常听到“事件”和“删失”。作者把事件定义为“可以在时间上定位的质变（qualitative change）”。

加粗的3个字我觉得是事件的3个关键因素，所谓质变，作者指的是从一种离散状态到另一种离散状态的过渡。比如说从未婚到结婚，从经理晋升到总经理...为了进行生存分析，比如结婚，你不仅需要知道谁结婚谁没结婚，还要知道结婚的时间点（在某个时间节点之前）

就像ADTTE里面的PFS（从首次给药日期<随机日期>至疾病进展或死亡的间隔时间），如果在研究结束之前（就是我上面讲的时间节点）发生了疾病进展或死亡，那个这个疾病进展或者死亡就是代表事件发生了（因为PFS的定义就是这样，它关注的就是什么时候发生了疾病进展或死亡），时间点一般是疾病进展或死亡前的最后一次SCAN date；没有发生，那就是删失了,也就是说并不是所有人一定会发生事件。

对于生存分析，最好的观察计划是前瞻性的。你在某个确定的时间点（肿瘤项目就是首次给药或者随机日起）开始观察一群人（受试者），然后跟踪他们一段相当长的时间（治疗期+随访期），记录下感兴趣的事件发生的时间（PFS,DOR,TTR,OS,etc.）。

做多了肿瘤项目，我们可能觉得生存分析只记录一个人同一类型的事件只有一次，但是对于生存分析它本身来说，并不是这样的。比如上面的逮捕、事故或晋升等事件是可重复的;也就是说，它们可能在同一个人身上出现两次或两次以上。虽然观察和记录同一事件的多次发生绝对是可取的，但需要专门的生存分析方法来适当地处理这些数据。

当数据仅由事件发生的时间组成时，可以执行生存分析，但生存分析的一个共同目标是估计因果或预测模型，其中事件的风险取决于协变量。像人种性别都可以称为协变量。

生存分析数据有两个特征是传统分析方法难以处理的：

censoring and time-dependent covariates (sometimes called time-varying explanatory variables).

书中举了一个例子，我觉得很有意义：

从马里兰州监狱释放的432名囚犯被跟踪调查了一年---试验对象

EOI(The event of interest)是第一次被逮捕的时间。

目的是为了确定被逮捕的发生和时间如何依赖于几个协变量(预测变量-predictor variables)。这几个协变量包括人种、释放时的年龄、先前被定罪的次数，这几个协变量在这一年的随访期是保持不变的，其他像什么婚姻状况和就职情况是可以改变的。

现在这些条件都列出来了，如果用传统的分析方法怎么处理？

①：用逻辑回归（(logistic regression），同时二分类变量是被捕和未被捕。但这种分析忽略了有关逮捕时间的信息。我们很自然地假设，在释放一周后被捕的人，平均而言，比那些直到第52周才被捕的人有更高的被捕倾向。至少，忽略这些信息会降低估算的精度。

解决这个问题的一个方法是将释放和第一次被捕之间的时间长度作为因变量，然后估计一个传统的线性回归模型。但是在一年的跟踪调查中，你怎么处理那些没有被捕的人呢?（也就是生存分析中讲的删失）

有两个明显的特别方法可以处理这种删失的情况，但这两种方法都不好用。一种方法是抛弃这些删失的情况。如果被删失的情况比例很小，这种方法可能会很有效。但是根据以往再犯的案例，大约75%的人都不会再被捕在释放一年后，也就是说会有很多的数据会被discard，这肯定会造成很大的偏差。

另一种方法是你可以将所有未被逮捕的人的逮捕时间设置为一年（也就是假设一年的时候没有被逮捕的人都被逮捕了）。然而，这同样可能会出现较大的偏差。

无论你使用哪种方法，像就业状况这样的时间相关变量（time-dependent，翻译正确吗？）如何被适当地纳入到逮捕发生的logit模型或逮捕时间的线性模型中，这一点都不清楚。

然后该数据集包含了在52周的随访中，每个人是否全职工作的信息。也许我们可以估计一个有52个指标(虚拟)变量的就业状况模型。除了这种程序在计算上的笨拙和统计上的低效之外，还有一个更根本的问题，即逮捕后数周内的所有就业指标可能都是逮捕的结果，而不是原因。特别是，被捕后被监禁的人不太可能在接下来的几周内全职工作。

简而言之，传统的方法在处理删失数据或与时间相关（time-dependent）的协变量方面都没有多大帮助。相比之下，所有的生存分析方法都允许删失数据的存在，许多方法还允许时间相关的协变量。

在删失的情况下，诀窍是设计一种程序，将删失和未删的数据信息结合起来，以产生对EOI的参数的一致估计。你可以很容易地通过最大似然法或部分似然法来实现这一点。时间相关的协变量也可以与这些基于可能性的方法合并。

说实话，上面的这个例子看的我一愣一愣的，但是我觉得反着看，不就知道逻辑回归这个模型是干什么用的，有哪些局限性吗？有时间我再好好看看线性回归吧。天天说有时间有时间，后面屁都没干。

希望上面的例子对大家有启发，我看完感觉有点道道了，但是你要我说出来，真的说不出来，反正就是看完有一种充实感,嘿嘿....