ARTICLE
泊松回归
泊松回归(Poisson regression)是一种广义线性模型(GLM),专门用于建模计数型(count data)因变量。当因变量表示某一事件在固定时间或空间内发生的次数时(如一周内的交通事故数、某地区每日新增病例数、每小时网站访问量、某片森林中的树种数量),普通线性回归的正态性假设不再成立,因计数数据呈非负整数且方差通常随均值变化。泊松回归为此类数据
泊松回归(Poisson regression)是一种广义线性模型(GLM),专门用于建模计数型(count data)因变量。当因变量表示某一事件在固定时间或空间内发生的次数时(如一周内的交通事故数、某地区每日新增病例数、每小时网站访问量、某片森林中的树种数量),普通线性回归的正态性假设不再成立,因计数数据呈非负整数且方差通常随均值变化。泊松回归为此类数据提供了更为合适的统计框架。
模型定义与数学形式
泊松回归假定因变量 服从泊松分布,其概率质量函数为:
其中参数 既是事件发生率的均值,也是方差。泊松分布的一大特征是均值等于方差,这一性质称为等离散性。模型通过对数链接函数将均值与线性预测项相联系:
对数链接保证了 始终为正数。自变量的回归系数 经指数变换后得到 ,解释为发生率比(incidence rate ratio, IRR),表示自变量每增加一个单位时事件发生率的倍数变化。例如,若 ,则 ,即事件发生率增加约22\%。
适用条件与核心假设
泊松回归的核心假设是等离散(equidispersion),即条件均值等于条件方差:。此外还要求观测值相互独立,且对数均值与自变量呈线性关系。等离散假设在实际数据中常被违反。当方差大于均值时称为过度离散(overdispersion),会导致标准误低估、统计检验膨胀、模型拟合欠佳。过度离散的常见原因包括数据存在聚集性、遗漏重要解释变量、或存在大量零值。当方差小于均值时称为欠离散(underdispersion),相对较少见。
参数估计
模型参数通常通过最大似然估计(MLE)求解。给定 个独立观测,对数似然函数为:
最大化该函数的参数估计值具有一致性和渐近有效性。多数统计软件使用迭代加权最小二乘法(IRLS,即Fisher scoring算法)进行数值求解。模型拟合优度可通过残差偏差(residual deviance)与 Pearson 卡方统计量评估。
模型诊断与扩展
诊断过度离散的常用方法包括:(1) 比较残差偏差与其自由度的比值,若远大于1则提示过度离散;(2) 使用正式的离散参数检验。若存在过度离散,可采用以下扩展模型:
- 负二项回归:引入额外的离散参数,允许方差大于均值,是最常见的替代模型。
- 准泊松回归:通过尺度参数修正标准误,保留泊松均值结构但不对分布做完整假设。
- 零膨胀模型:当数据中零值比例过高时,使用零膨胀泊松(ZIP)或零膨胀负二项(ZINB)模型,将零值来源分为结构零和抽样零两类。
- 截断模型:针对无法观测到零的计数数据,如医院住院天数或商店日销售额。
- 稳健标准误:在不改变模型结构的前提下修正标准误估计。
偏移项与率的建模
在流行病学等领域的队列研究中,各观测的暴露时间或人群基数往往不同。此时需在模型中引入偏移项(offset),对发生率直接建模:
其中 为第 个观测的人时数, 的系数固定为1。这一处理使得模型解释聚焦于单位暴露时间内的发生率,而非绝对计数。
应用领域
泊松回归广泛应用于多个学科:流行病学(疾病发病率建模与药物不良反应监测)、保险精算(车险理赔次数预测)、交通工程(交叉口事故频率分析)、生态学(物种丰富度与环境因子的关系)、社会科学(犯罪事件统计与社交媒体互动计数)、制造业(产品缺陷数量控制)。在机器学习领域,泊松回归也作为计数预测的基线模型,常与梯度提升等集成方法结合使用。
总结
泊松回归是分析计数数据的基准方法,其理论框架简洁、参数解释直观(发生率比)。实际应用中需重点关注等离散假设的验证,并根据数据特征(零值比例、离散程度、暴露时间差异)在负二项回归、零膨胀模型和准泊松回归等扩展方案中做出恰当选择。掌握泊松回归的原理与局限,是深入理解广义线性模型、纵向数据分析和因果推断方法的重要基础。
参考文献
- Cameron, A. C., \& Trivedi, P. K. (2013). *Regression Analysis of Count Data* (2nd ed.). Cambridge University Press.
- McCullagh, P., \& Nelder, J. A. (1989). *Generalized Linear Models* (2nd ed.). Chapman \& Hall.
- Frome, E. L., \& Checkoway, H. (1985). Use of Poisson regression models in estimating incidence rates and ratios. *American Journal of Epidemiology*, 121(2), 309-323.