ARTICLE

Cox比例风险模型

Cox比例风险模型（Cox Proportional Hazards Model），由英国统计学家戴维·考克斯（Sir David Cox）于1972年提出，是一种广泛应用于生存分析（Survival Analysis）的半参数回归模型。该模型的核心创新在于无须对时间的基准风险函数（Baseline Hazard Function）作任何分布假设，即可估计协

浏览 2 更新 2025-11-08

Cox比例风险模型（Cox Proportional Hazards Model），由英国统计学家戴维·考克斯（Sir David Cox）于1972年提出，是一种广泛应用于生存分析（Survival Analysis）的半参数回归模型。该模型的核心创新在于无须对时间的基准风险函数（Baseline Hazard Function）作任何分布假设，即可估计协变量对生存时间的影响。这一"半参数"特性使Cox模型成为医学研究、流行病学、工程可靠性分析和计量经济学等领域中最常用的生存分析方法之一，考克斯也因此项贡献于1990年获得英国皇家统计学会的盖伊金质奖章。

1. 模型的基本形式

1.1 风险函数与比例风险假设

Cox模型以风险函数（Hazard Function）为核心建模对象。设 $T$ 为生存时间，风险函数定义为：

h(t) = \lim_{\Delta t \to 0} \frac{P(t \leq T < t + \Delta t \mid T \geq t)}{\Delta t}

它表示个体在时刻 $t$ 仍然存活的前提下，在极短时间间隔内经历事件的瞬时风险率。Cox模型假设协变量 $X = (X_1, X_2, \ldots, X_p)$ 以乘积形式作用于风险函数：

h(t \mid X) = h_0(t) \cdot \exp(\beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p)

其中 $h_0(t)$ 是基准风险函数（Baseline Hazard），对应所有协变量取零时的风险函数； $\beta = (\beta_1, \beta_2, \ldots, \beta_p)$ 是回归系数向量。模型的两大关键假设是：第一，不同个体的风险函数成比例，即任意两个个体的风险比（Hazard Ratio）不随时间变化；第二，协变量的效应是指数乘法形式，而非加法形式。

1.2 比例风险的含义

比例风险假设意味着协变量的效应随时间保持恒定。具体而言，对于两个个体 $i$ 和 $j$ ，其风险比为：

\frac{h(t \mid X_i)}{h(t \mid X_j)} = \exp\left[\beta'(X_i - X_j)\right]

该比值不依赖于时间 $t$ 。这一性质使得回归系数 $\beta$ 具有简洁的解释：在其他协变量固定的条件下， $X_k$ 每增加一个单位，风险率乘以 $\exp(\beta_k)$ ，即发生事件的瞬时风险变为原来的 $\exp(\beta_k)$ 倍。当 $\beta_k > 0$ 时， $\exp(\beta_k) > 1$ ，表示该协变量增加事件发生的风险；反之， $\beta_k < 0$ 表示该协变量降低风险。

2. 参数估计方法

2.1 偏似然函数

Cox模型的核心创新之一是引入偏似然函数（Partial Likelihood）来估计回归系数 $\beta$ ，而无需估计基准风险函数 $h_0(t)$ 。设数据包含 $n$ 个独立个体，观测到 $k$ 个事件发生时间 $t_{(1)} < t_{(2)} < \cdots < t_{(k)}$ ，其余个体为删失（Censored）。在无结点（No Ties）的情况下，偏似然函数为：

L(\beta) = \prod_{j=1}^{k} \frac{\exp(\beta' X_{(j)})}{\sum_{l \in R(t_{(j)})} \exp(\beta' X_l)}

其中 $X_{(j)}$ 表示在时间 $t_{(j)}$ 发生事件的个体的协变量向量， $R(t_{(j)})$ 是该时刻仍处于风险集合（Risk Set）中的个体集合。该似然函数之所以称为"偏"似然，是因为它仅使用了事件发生的顺序信息（秩），而未包含事件发生的精确时间信息。考克斯证明了偏似然函数在估计 $\beta$ 时具有与完全似然相同的渐近性质，包括一致性（Consistency）和渐近正态性（Asymptotic Normality）。

2.2 结点处理方法

当多个事件发生在同一时间点时，称为存在结点（Ties）。精确处理结点的偏似然函数涉及复杂的排列组合计算，在实际应用中常采用近似方法。最常用的三种近似包括：Breslow近似（最简洁，适合结点较少的情形）、Efron近似（精度更高，为多数统计软件的默认选项）和离散Logistic模型。在R语言的survival包中，Efron近似为默认选项；SAS的PHREG过程也提供了多种结点处理方法的选项。

2.3 基准风险函数的估计

尽管估计 $\beta$ 不需要 $h_0(t)$ ，但在预测个体生存概率时仍需对基准累积风险函数 $H_0(t) = \int_0^t h_0(s) ds$ 进行估计。常用的方法是Breslow估计量（Breslow Estimator），它是一种非参数估计，类似于Nelson-Aalen估计量的推广。给定 $\hat{\beta}$ 后，基准累积风险函数的Breslow估计为：

\hat{H}_0(t) = \sum_{t_{(j)} \leq t} \frac{d_j}{\sum_{l \in R(t_{(j)})} \exp(\hat{\beta}' X_l)}

其中 $d_j$ 为时间 $t_{(j)}$ 处发生的事件数。由此可进一步计算特定协变量取值下的生存函数估计：

\hat{S}(t \mid X) = \exp\left[-\hat{H}_0(t) \cdot \exp(\hat{\beta}' X)\right]

3. 模型诊断与检验

3.1 比例风险假设检验

比例风险假设是Cox模型的核心前提，对其进行检验是建模过程中的必要步骤。常用的检验方法包括：其一，Schoenfeld残差检验（Schoenfeld Residuals Test），通过检验Schoenfeld残差与时间的相关性来判断比例风险假设是否成立，该方法由Grambsch和Therneau于1994年系统化，在R的survival包中通过cox.zph函数实现；其二，图示法，如绘制不同协变量分层下的log(-log(S(t)))曲线，若曲线近似平行则表明比例风险假设合理；其三，含时变协变量的交互检验，在模型中加入协变量与时间的交互项，检验该交互项的显著性。

3.2 模型拟合优度与残差分析

除比例风险假设外，还需对模型的整体拟合情况进行评估。Cox-Snell残差可用于检验模型的整体拟合优度：若模型正确设定，Cox-Snell残差应当服从单位指数分布。偏差残差（Deviance Residuals）和Martingale残差则可用于识别异常值和模型误设，前者经过变换后更接近正态分布，便于直观判断。此外，受试者工作特征曲线（ROC曲线）和C统计量（Concordance Statistic）可衡量模型对事件发生顺序的预测区分能力。

4. 模型的推广与扩展

4.1 时变协变量

Cox模型的一个显著优势是能够自然地纳入时变协变量（Time-varying Covariates），即取值随时间变化的解释变量。例如，在研究心脏病发作时，患者的血压、胆固醇水平等标志物可能在随访期间发生变化。只要协变量的取值在每一事件时间点已知，Cox模型的偏似然框架即可直接扩展至时变情形，只需将风险集中的协变量值替换为该时间点的当前值即可。这一特性使Cox模型在纵向数据分析和动态风险预测中具有广泛的应用价值。

4.2 分层Cox模型

当比例风险假设对某些分层变量（如不同的医院、地区或种族群体）不成立时，可采用分层Cox模型（Stratified Cox Model）。该模型为每一层设定独立的基准风险函数 $h_{0s}(t)$ ，但假设协变量的效应（ $\beta$ ）在各层之间相同：

h_s(t \mid X) = h_{0s}(t) \cdot \exp(\beta' X)

分层模型通过允许基准风险随层变化来缓解比例风险假设的约束，同时仍利用全部数据估计共同的协变量效应。

4.3 竞争风险模型

在存在多个互斥的终点事件（即竞争风险，Competing Risks）时，标准Cox模型可能存在偏倚，因为传统的删失处理无法区分"因其他原因退出"与"被观测到特定事件"。原因特异性风险模型（Cause-specific Hazard Model）和次分布风险模型（Subdistribution Hazard Model，即Fine-Gray模型）是处理竞争风险的两种主要扩展。前者使用Cox模型分别估计每种事件的因果风险函数，后者则直接关注某一事件的累积发生率函数。

4.4 脆弱性模型与随机效应

在存在未观测的异质性时，可引入脆弱性模型（Frailty Model），即在Cox模型中嵌入一个随机效应项，用以刻画同一簇（如家庭成员、同一医院的病人）内部个体间的相关性或未被观测的个体差异。脆弱性项通常假定服从Gamma分布或对数正态分布。这一扩展在群体遗传学、多中心临床试验和重复事件数据分析中尤为重要。

5. 实际应用与注意事项

5.1 软件实现

主流统计软件均提供Cox模型的计算功能。在R语言中，survival包的coxph函数是最常用的实现；Python的lifelines库提供了CoxPHFitter类；SAS的PHREG过程、Stata的stcox命令以及SPSS的Cox Regression模块也均支持标准Cox模型及其多种扩展。这些软件在输出中通常报告回归系数的估计值、标准误、风险比（ $\exp(\beta)$ ）及其置信区间、偏似然比检验结果和Schoenfeld残差检验结果。

5.2 临床应用与医学研究

Cox比例风险模型在临床医学中的应用最为广泛。自20世纪80年代以来，该模型已成为肿瘤学临床试验中评估治疗方案效果的标准工具。在癌症研究中，Cox模型常用于估计不同治疗组的风险比，同时调整患者的年龄、性别、肿瘤分期、生物标志物水平等混杂因素。在心血管疾病研究中，Framingham风险评分等经典预测工具的计算即基于Cox模型的结果。此外，在药物流行病学中，Cox模型被用于观察性研究中评估药物暴露与不良事件之间的关联。

5.3 经济学与其他社会科学领域

在经济学领域，Cox模型被广泛用于失业持续时间的分析（劳动力市场退出率的决定因素）、企业破产时间预测和高管离职率研究。在政治学中，该模型可分析内阁持续时间、国际冲突持续期和政治领导人任期的影响因素。在社会学中，婚姻持续时间、再就业时间和移民融入过程等事件史分析普遍采用Cox模型。

5.4 模型局限性

Cox比例风险模型存在若干需要注意的局限性。首先，比例风险假设在实际数据中常被违反，尤其当协变量的效应随时间变化时，需使用含时变交互项的扩展模型或分层模型。其次，模型对删失机制假设较为敏感，若删失与事件时间存在依赖关系（信息删失），估计结果可能产生偏倚。第三，当存在大量结点时，近似方法的精度可能下降，需要谨慎处理。最后，模型的解释依赖于风险比恒定的假设，当该假设不成立时，风险比作为效应汇总指标的意义会变得模糊。因此，在实际应用中，模型诊断与敏感性分析应当作为标准流程的一部分，以确保结论的稳健性。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。