ARTICLE

广义线性模型 (Generalized Linear Models, GLM)

广义线性模型 (Generalized Linear Models, GLM) 广义线性模型 (Generalized Linear Models,GLM) 是由Nelder和Wedderburn于 1972 年提出的一族统一回归框架,它将经典线性回归从正态因变量推广至整个指数族分布——包括二项分布、泊松分布、伽马分布和逆高斯分布等。GLM 的核心思想为:因

浏览 0 更新 2026-05-27

广义线性模型 (Generalized Linear Models, GLM)

广义线性模型 (Generalized Linear Models,GLM) 是由NelderWedderburn于 1972 年提出的一族统一回归框架,它将经典线性回归从正态因变量推广至整个指数族分布——包括二项分布、泊松分布、伽马分布和逆高斯分布等。GLM 的核心思想为:因变量的条件期望 μi=E[Yixi]\mu_i = \mathbb{E}[Y_i \mid \mathbf{x}_i] 通过连接函数 (link function) g()g(\cdot) 与线性预测子 ηi=xiβ\eta_i = \mathbf{x}_i^\top \boldsymbol{\beta} 相连接:g(μi)=ηig(\mu_i) = \eta_i。三个构件——随机成分(指数族分布)、系统成分(线性预测子)和连接函数——定义了具体的 GLM。

三个构件与常见特例

随机成分指定因变量 YiY_i 的条件分布属于指数族,其方差一般为均值的函数 Var(Yi)=ϕV(μi)\operatorname{Var}(Y_i) = \phi \cdot V(\mu_i),其中 ϕ\phi 为离散参数,V(μ)V(\mu) 为方差函数。该设定允许异方差自然地进入模型——泊松回归的方差等于均值、逻辑回归的方差为 μ(1μ)\mu(1-\mu)

连接函数将线性预测子映射到因变量期望的取值空间。恒等连接 g(μ)=μg(\mu) = \mu 还原为线性回归(正态分布)、Logit 连接 g(μ)=log(μ/(1μ))g(\mu) = \log(\mu/(1-\mu)) 对应逻辑回归(二项分布)、对数连接 g(μ)=logμg(\mu) = \log \mu 对应泊松回归(泊松分布)和倒数连接 g(μ)=1/μg(\mu) = 1/\mu 对应伽马回归。规范连接 (canonical link) 满足 g(μi)=θig(\mu_i) = \theta_i(自然参数直接等于线性预测子),在指数族中保证似然函数为凹函数,简化优化问题。

估计与模型评估

GLM 的参数由极大似然估计获得。由于规范连接下似然函数的凹性,优化可通过Newton-Raphson方法Fisher评分法高效求解。Fisher评分法等价于迭代再加权最小二乘 (IRLS):在每一步迭代中构造工作因变量 zi=ηi+(yiμi)g(μi)z_i = \eta_i + (y_i - \mu_i) \cdot g'(\mu_i) 和工作权重 wi=[g(μi)2V(μi)]1w_i = [g'(\mu_i)^2 V(\mu_i)]^{-1},然后对 zz 进行加权最小二乘回归,反复迭代至收敛。

模型评估方面,GLM 以偏差 (deviance) 取代线性回归中的残差平方和:D=2(satfitted)D = 2(\ell_{\text{sat}} - \ell_{\text{fitted}}),其中 sat\ell_{\text{sat}} 为饱和模型的似然(每个观测一个参数)。两嵌套模型的偏差之差渐近服从卡方分布 χp1p02\chi^2_{p_1 - p_0},由此可进行似然比检验。赤池信息准则 (AIC) 和BIC 均可通过似然和参数个数的组合直接计算。

经济学中的应用

GLM 在应用微观计量中应用广泛。二元选择模型(Logit 和 Probit)用于分析劳动力参与、企业进入和贷款违约等二值决策——二者的区别在于 Probit 假设标准正态分布的潜变量误差而 Logit 采用逻辑分布,Logit 更稳健但 Probit 在选择模型结构估计中更自然。计数数据模型(泊松回归和负二项回归)用于建模专利数量、医疗就诊次数和犯罪事件频率——当数据存在过度离散 (overdispersion,方差超均值) 时,负二项回归通过对泊松均值引入伽马分布的个体异质性来解决。GLM 还通过有序Logit多项Logit扩展至有序和多类别结果,完整覆盖了应用经济学中的非连续因变量建模需求。