ARTICLE
广义线性模型 (Generalized Linear Models, GLM)
广义线性模型 (Generalized Linear Models, GLM) 广义线性模型 (Generalized Linear Models,GLM) 是由Nelder和Wedderburn于 1972 年提出的一族统一回归框架,它将经典线性回归从正态因变量推广至整个指数族分布——包括二项分布、泊松分布、伽马分布和逆高斯分布等。GLM 的核心思想为:因
广义线性模型 (Generalized Linear Models, GLM)
广义线性模型 (Generalized Linear Models,GLM) 是由Nelder和Wedderburn于 1972 年提出的一族统一回归框架,它将经典线性回归从正态因变量推广至整个指数族分布——包括二项分布、泊松分布、伽马分布和逆高斯分布等。GLM 的核心思想为:因变量的条件期望 通过连接函数 (link function) 与线性预测子 相连接:。三个构件——随机成分(指数族分布)、系统成分(线性预测子)和连接函数——定义了具体的 GLM。
三个构件与常见特例
随机成分指定因变量 的条件分布属于指数族,其方差一般为均值的函数 ,其中 为离散参数, 为方差函数。该设定允许异方差自然地进入模型——泊松回归的方差等于均值、逻辑回归的方差为 。
连接函数将线性预测子映射到因变量期望的取值空间。恒等连接 还原为线性回归(正态分布)、Logit 连接 对应逻辑回归(二项分布)、对数连接 对应泊松回归(泊松分布)和倒数连接 对应伽马回归。规范连接 (canonical link) 满足 (自然参数直接等于线性预测子),在指数族中保证似然函数为凹函数,简化优化问题。
估计与模型评估
GLM 的参数由极大似然估计获得。由于规范连接下似然函数的凹性,优化可通过Newton-Raphson方法或Fisher评分法高效求解。Fisher评分法等价于迭代再加权最小二乘 (IRLS):在每一步迭代中构造工作因变量 和工作权重 ,然后对 进行加权最小二乘回归,反复迭代至收敛。
模型评估方面,GLM 以偏差 (deviance) 取代线性回归中的残差平方和:,其中 为饱和模型的似然(每个观测一个参数)。两嵌套模型的偏差之差渐近服从卡方分布 ,由此可进行似然比检验。赤池信息准则 (AIC) 和BIC 均可通过似然和参数个数的组合直接计算。
经济学中的应用
GLM 在应用微观计量中应用广泛。二元选择模型(Logit 和 Probit)用于分析劳动力参与、企业进入和贷款违约等二值决策——二者的区别在于 Probit 假设标准正态分布的潜变量误差而 Logit 采用逻辑分布,Logit 更稳健但 Probit 在选择模型和结构估计中更自然。计数数据模型(泊松回归和负二项回归)用于建模专利数量、医疗就诊次数和犯罪事件频率——当数据存在过度离散 (overdispersion,方差超均值) 时,负二项回归通过对泊松均值引入伽马分布的个体异质性来解决。GLM 还通过有序Logit和多项Logit扩展至有序和多类别结果,完整覆盖了应用经济学中的非连续因变量建模需求。