ARTICLE

泊松回归

泊松回归(Poisson regression)是一种广义线性模型(GLM),专门用于建模计数型(count data)因变量。当因变量表示某一事件在固定时间或空间内发生的次数时(如一周内的交通事故数、某地区每日新增病例数、每小时网站访问量、某片森林中的树种数量),普通线性回归的正态性假设不再成立,因计数数据呈非负整数且方差通常随均值变化。泊松回归为此类数据

浏览 9 更新 2025-11-03

泊松回归(Poisson regression)是一种广义线性模型(GLM),专门用于建模计数型(count data)因变量。当因变量表示某一事件在固定时间或空间内发生的次数时(如一周内的交通事故数、某地区每日新增病例数、每小时网站访问量、某片森林中的树种数量),普通线性回归的正态性假设不再成立,因计数数据呈非负整数且方差通常随均值变化。泊松回归为此类数据提供了更为合适的统计框架。

模型定义与数学形式

泊松回归假定因变量 YY 服从泊松分布,其概率质量函数为:

P(Y=y)=eμμyy!,y=0,1,2,P(Y = y) = \frac{e^{-\mu} \mu^y}{y!}, \quad y = 0, 1, 2, \dots

其中参数 μ>0\mu > 0 既是事件发生率的均值,也是方差。泊松分布的一大特征是均值等于方差,这一性质称为等离散性。模型通过对数链接函数将均值与线性预测项相联系:

log(μ)=β0+β1x1+β2x2++βkxk\log(\mu) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_k x_k

对数链接保证了 μ\mu 始终为正数。自变量的回归系数 βj\beta_j 经指数变换后得到 eβje^{\beta_j},解释为发生率比(incidence rate ratio, IRR),表示自变量每增加一个单位时事件发生率的倍数变化。例如,若 β=0.2\beta = 0.2,则 e0.21.22e^{0.2} \approx 1.22,即事件发生率增加约22\%。

适用条件与核心假设

泊松回归的核心假设是等离散(equidispersion),即条件均值等于条件方差:Var(YX)=E(YX)\text{Var}(Y|X) = E(Y|X)。此外还要求观测值相互独立,且对数均值与自变量呈线性关系。等离散假设在实际数据中常被违反。当方差大于均值时称为过度离散(overdispersion),会导致标准误低估、统计检验膨胀、模型拟合欠佳。过度离散的常见原因包括数据存在聚集性、遗漏重要解释变量、或存在大量零值。当方差小于均值时称为欠离散(underdispersion),相对较少见。

参数估计

模型参数通常通过最大似然估计(MLE)求解。给定 nn 个独立观测,对数似然函数为:

(β)=i=1n[yilog(μi)μilog(yi!)]\ell(\beta) = \sum_{i=1}^{n} \left[ y_i \log(\mu_i) - \mu_i - \log(y_i!) \right]

最大化该函数的参数估计值具有一致性和渐近有效性。多数统计软件使用迭代加权最小二乘法(IRLS,即Fisher scoring算法)进行数值求解。模型拟合优度可通过残差偏差(residual deviance)与 Pearson 卡方统计量评估。

模型诊断与扩展

诊断过度离散的常用方法包括:(1) 比较残差偏差与其自由度的比值,若远大于1则提示过度离散;(2) 使用正式的离散参数检验。若存在过度离散,可采用以下扩展模型:

  • 负二项回归:引入额外的离散参数,允许方差大于均值,是最常见的替代模型。
  • 准泊松回归:通过尺度参数修正标准误,保留泊松均值结构但不对分布做完整假设。
  • 零膨胀模型:当数据中零值比例过高时,使用零膨胀泊松(ZIP)或零膨胀负二项(ZINB)模型,将零值来源分为结构零和抽样零两类。
  • 截断模型:针对无法观测到零的计数数据,如医院住院天数或商店日销售额。
  • 稳健标准误:在不改变模型结构的前提下修正标准误估计。

偏移项与率的建模

在流行病学等领域的队列研究中,各观测的暴露时间或人群基数往往不同。此时需在模型中引入偏移项(offset),对发生率直接建模:

log(μi)=log(ti)+β0+β1xi1++βkxik\log(\mu_i) = \log(t_i) + \beta_0 + \beta_1 x_{i1} + \dots + \beta_k x_{ik}

其中 tit_i 为第 ii 个观测的人时数,log(ti)\log(t_i) 的系数固定为1。这一处理使得模型解释聚焦于单位暴露时间内的发生率,而非绝对计数。

应用领域

泊松回归广泛应用于多个学科:流行病学(疾病发病率建模与药物不良反应监测)、保险精算(车险理赔次数预测)、交通工程(交叉口事故频率分析)、生态学(物种丰富度与环境因子的关系)、社会科学(犯罪事件统计与社交媒体互动计数)、制造业(产品缺陷数量控制)。在机器学习领域,泊松回归也作为计数预测的基线模型,常与梯度提升等集成方法结合使用。

总结

泊松回归是分析计数数据的基准方法,其理论框架简洁、参数解释直观(发生率比)。实际应用中需重点关注等离散假设的验证,并根据数据特征(零值比例、离散程度、暴露时间差异)在负二项回归、零膨胀模型和准泊松回归等扩展方案中做出恰当选择。掌握泊松回归的原理与局限,是深入理解广义线性模型、纵向数据分析和因果推断方法的重要基础。

参考文献

  • Cameron, A. C., \& Trivedi, P. K. (2013). *Regression Analysis of Count Data* (2nd ed.). Cambridge University Press.
  • McCullagh, P., \& Nelder, J. A. (1989). *Generalized Linear Models* (2nd ed.). Chapman \& Hall.
  • Frome, E. L., \& Checkoway, H. (1985). Use of Poisson regression models in estimating incidence rates and ratios. *American Journal of Epidemiology*, 121(2), 309-323.