ARTICLE

生存分析

生存分析 (Survival Analysis) 生存分析(Survival Analysis)是一类用于分析从起始事件到终点事件所经历的时间(即"生存时间"或"失效时间")的统计方法,其核心特征是处理删失数据(Censored Data)——并非所有个体在研究结束前都经历了终点事件,这使得普通线性或逻辑回归不再适用。 核心概念 生存时间 T 是从明确定义的

浏览 4 更新 2025-01-22

生存分析 (Survival Analysis)

生存分析(Survival Analysis)是一类用于分析从起始事件到终点事件所经历的时间(即"生存时间"或"失效时间")的统计方法,其核心特征是处理删失数据(Censored Data)——并非所有个体在研究结束前都经历了终点事件,这使得普通线性或逻辑回归不再适用。

核心概念

生存时间 T T 是从明确定义的起点(如确诊日、手术日、设备投运日)到感兴趣事件发生所经历的非负连续随机变量。删失是生存分析的本质特征:右删失(最常见)指研究结束时个体仍未经历事件或中途失访,仅知 T>c T > c 左删失指事件在某个时间前已发生;区间删失指事件发生在某区间 [a,b] [a, b] 内。关键假设:删失需为非信息性(Non-informative Censoring),否则估计有偏。

核心函数

生存函数 S(t)=P(T>t) S(t) = P(T > t) 表示存活到时间 t t 之后的概率,单调非增,S(0)=1 S(0)=1 S()=0 S(\infty)=0 危险函数 h(t)=limΔt0P(tT<t+ΔtTt)/Δt h(t) = \lim_{\Delta t\to 0} P(t \leq T < t+\Delta t \mid T \geq t)/\Delta t 表示在已存活到 t t 的条件下,下一瞬间发生事件的瞬时速率(可大于 1,并非概率)。二者关系为 S(t)=exp(0th(u)du) S(t) = \exp(-\int_0^t h(u) du)

核心方法

Kaplan-Meier 估计量(非参数)用于估计生存函数:S^(t)=tit(1di/ni) \hat{S}(t) = \prod_{t_i \leq t} (1 - d_i/n_i) ,其中 di d_i ti t_i 时刻事件数,ni n_i 为风险集大小。它是阶梯函数,只在事件发生时刻跳跃。

Cox 比例风险模型(半参数)是应用最广的回归模型:

h(tX)=h0(t)exp(β1X1++βpXp)h(t \mid X) = h_0(t) \cdot \exp(\beta_1 X_1 + \cdots + \beta_p X_p)

h0(t) h_0(t) 为基线危险函数(不设定参数形式),exp(β) \exp(\beta) 危险比(Hazard Ratio)。核心假设为比例风险假设(PH Assumption)——危险比在整个时间轴上恒定,常用 Schoenfeld 残差检验。

参数模型(Weibull、指数、对数正态等)当分布有理论依据时适用。加速失效时间模型(AFT)直接用 ln(T)=β0+βX+σϵ \ln(T) = \beta_0 + \beta X + \sigma\epsilon 建模时间,在工程可靠性领域常见。Cox 回答"谁更危险",AFT 回答"谁更快失效"。

应用与拓展

| 领域 | 起点 | 终点 | |------|------|------| | 临床医学 | 入组/手术日 | 死亡/复发 | | 可靠性工程 | 设备投运 | 故障 | | 金融风控 | 贷款发放 | 违约 | | 用户行为 | 注册 | 流失 |

log-rank 检验是两组生存曲线比较的最常用非参数检验。当存在多种互斥终点(如心血管死亡 vs 癌症死亡)时,需用竞争风险模型(Fine-Gray 子分布风险模型)。其他重要拓展包括:多状态模型(模拟疾病进程)、脆弱模型(处理未观测异质性)、联合模型(同时建模纵向轨迹与生存结局)及治愈模型(适用于部分个体永不经历事件的场景)。

verified: true