ARTICLE

泊松回归

泊松回归（Poisson regression）是一种广义线性模型（GLM），专门用于建模计数型（count data）因变量。当因变量表示某一事件在固定时间或空间内发生的次数时（如一周内的交通事故数、某地区每日新增病例数、每小时网站访问量、某片森林中的树种数量），普通线性回归的正态性假设不再成立，因计数数据呈非负整数且方差通常随均值变化。泊松回归为此类数据

浏览 9 更新 2025-11-03

模型定义与数学形式

泊松回归假定因变量 $Y$ 服从泊松分布，其概率质量函数为：

P(Y = y) = \frac{e^{-\mu} \mu^y}{y!}, \quad y = 0, 1, 2, \dots

其中参数 $\mu > 0$ 既是事件发生率的均值，也是方差。泊松分布的一大特征是均值等于方差，这一性质称为等离散性。模型通过对数链接函数将均值与线性预测项相联系：

\log(\mu) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_k x_k

对数链接保证了 $\mu$ 始终为正数。自变量的回归系数 $\beta_j$ 经指数变换后得到 $e^{\beta_j}$ ，解释为发生率比（incidence rate ratio, IRR），表示自变量每增加一个单位时事件发生率的倍数变化。例如，若 $\beta = 0.2$ ，则 $e^{0.2} \approx 1.22$ ，即事件发生率增加约22\%。

适用条件与核心假设

泊松回归的核心假设是等离散（equidispersion），即条件均值等于条件方差： $\text{Var}(Y|X) = E(Y|X)$ 。此外还要求观测值相互独立，且对数均值与自变量呈线性关系。等离散假设在实际数据中常被违反。当方差大于均值时称为过度离散（overdispersion），会导致标准误低估、统计检验膨胀、模型拟合欠佳。过度离散的常见原因包括数据存在聚集性、遗漏重要解释变量、或存在大量零值。当方差小于均值时称为欠离散（underdispersion），相对较少见。

参数估计

模型参数通常通过最大似然估计（MLE）求解。给定 $n$ 个独立观测，对数似然函数为：

\ell(\beta) = \sum_{i=1}^{n} \left[ y_i \log(\mu_i) - \mu_i - \log(y_i!) \right]

最大化该函数的参数估计值具有一致性和渐近有效性。多数统计软件使用迭代加权最小二乘法（IRLS，即Fisher scoring算法）进行数值求解。模型拟合优度可通过残差偏差（residual deviance）与 Pearson 卡方统计量评估。

模型诊断与扩展

诊断过度离散的常用方法包括：(1) 比较残差偏差与其自由度的比值，若远大于1则提示过度离散；(2) 使用正式的离散参数检验。若存在过度离散，可采用以下扩展模型：

负二项回归：引入额外的离散参数，允许方差大于均值，是最常见的替代模型。
准泊松回归：通过尺度参数修正标准误，保留泊松均值结构但不对分布做完整假设。
零膨胀模型：当数据中零值比例过高时，使用零膨胀泊松（ZIP）或零膨胀负二项（ZINB）模型，将零值来源分为结构零和抽样零两类。
截断模型：针对无法观测到零的计数数据，如医院住院天数或商店日销售额。
稳健标准误：在不改变模型结构的前提下修正标准误估计。

偏移项与率的建模

在流行病学等领域的队列研究中，各观测的暴露时间或人群基数往往不同。此时需在模型中引入偏移项（offset），对发生率直接建模：

\log(\mu_i) = \log(t_i) + \beta_0 + \beta_1 x_{i1} + \dots + \beta_k x_{ik}

其中 $t_i$ 为第 $i$ 个观测的人时数， $\log(t_i)$ 的系数固定为1。这一处理使得模型解释聚焦于单位暴露时间内的发生率，而非绝对计数。

应用领域

泊松回归广泛应用于多个学科：流行病学（疾病发病率建模与药物不良反应监测）、保险精算（车险理赔次数预测）、交通工程（交叉口事故频率分析）、生态学（物种丰富度与环境因子的关系）、社会科学（犯罪事件统计与社交媒体互动计数）、制造业（产品缺陷数量控制）。在机器学习领域，泊松回归也作为计数预测的基线模型，常与梯度提升等集成方法结合使用。

总结

泊松回归是分析计数数据的基准方法，其理论框架简洁、参数解释直观（发生率比）。实际应用中需重点关注等离散假设的验证，并根据数据特征（零值比例、离散程度、暴露时间差异）在负二项回归、零膨胀模型和准泊松回归等扩展方案中做出恰当选择。掌握泊松回归的原理与局限，是深入理解广义线性模型、纵向数据分析和因果推断方法的重要基础。

参考文献

Cameron, A. C., \& Trivedi, P. K. (2013). *Regression Analysis of Count Data* (2nd ed.). Cambridge University Press.
McCullagh, P., \& Nelder, J. A. (1989). *Generalized Linear Models* (2nd ed.). Chapman \& Hall.
Frome, E. L., \& Checkoway, H. (1985). Use of Poisson regression models in estimating incidence rates and ratios. *American Journal of Epidemiology*, 121(2), 309-323.

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。