知经 KNOWECON · 卓越的经济金融统计数学学习平台

广义线性模型

# 广义线性模型 (Generalized Linear Model)

广义线性模型 (Generalized Linear Model, 缩写为 GLM) 是对传统{{{线性回归模型}}} (Linear Regression Model) 的一个重要扩展和推广,是{{{统计学}}}和{{{计量经济学}}}中的核心工具。传统线性模型假设{{{因变量}}} (response variable) 服从{{{正态分布}}},且其{{{期望}}}与{{{自变量}}} (explanatory variables) 之间存在线性关系。然而,在实际研究中,因变量经常不满足这一假设,例如,因变量可能是二元的(如是/否)、计数的(如事件发生次数)或偏态分布的连续值。GLM 提供了一个统一且灵活的框架,专门用于处理这些非正态分布的因变量数据。

GLM 框架由三部分构成,这三部分共同定义了一个具体的模型:

1. 随机部分 (Random Component):指定因变量 $Y$ 的{{{概率分布}}},该分布必须属于{{{指数族分布}}} (Exponential Dispersion Family)。 2. 系统部分 (Systematic Component):由自变量构成的线性组合,称为线性预测子 (linear predictor),通常记为 $\eta$。 3. 连接函数 (Link Function):一个函数 $g(\cdot)$,它将因变量的期望 $\mu = E(Y)$ 与线性预测子 $\eta$ 联系起来。

GLM 的提出极大地拓宽了{{{回归分析}}}的应用范围,将看似无关的多种模型(如线性回归、{{{逻辑回归}}}、{{{泊松回归}}}等)统一在一个理论体系之下。

## GLM 的三个核心组成部分

为了深刻理解广义线性模型,我们必须详细剖析其三个核心组成部分。

### 一、随机部分 (The Random Component)

随机部分定义了因变量 $Y$ 的概率分布。与经典线性模型严格要求 $Y$ 服从正态分布不同,GLM 允许 $Y$ 服从任何属于指数族分布的分布。指数族分布是一个具有特定数学形式的分布家族,其{{{概率密度函数}}}或{{{概率质量函数}}}可以写为: $$ f(y | \theta, \phi) = \exp \left( \frac{y\theta - b(\theta)}{a(\phi)} + c(y, \phi) \right) $$ 其中,$\theta$ 是自然参数 (natural parameter),$\phi$ 是散度参数 (dispersion parameter)。

这个性质之所以重要,是因为它包含了许多在统计建模中极为常见的分布。常见的指数族分布及其在 GLM 中的应用包括:

* {{{正态分布}}} (Normal Distribution): 用于建模连续且对称分布的因变量。当随机部分为正态分布,连接函数为恒等函数时,GLM 就退化为经典的线性回归模型。 * {{{二项分布}}} (Binomial Distribution): 用于建模二元结果(如成功/失败,是/否)或在 $n$ 次试验中的成功次数。这是构建{{{逻辑回归}}} (Logistic Regression) 和 {{{Probit模型}}} (Probit Regression) 的基础。 * {{{泊松分布}}} (Poisson Distribution): 用于建模在一定时间或空间内事件发生的次数,即{{{计数数据}}} (count data)。这是构建{{{泊松回归}}} (Poisson Regression) 的基础。 * {{{伽马分布}}} (Gamma Distribution): 用于建模取值为正且呈右偏态的连续数据,如保险索赔金额、等待时间等。 * {{{负二项分布}}} (Negative Binomial Distribution): 同样用于建模计数数据,但与泊松分布不同,它允许数据存在{{{过度离散}}} (overdispersion),即方差大于均值的情况,这在现实数据中非常常见。

### 二、系统部分 (The Systematic Component)

系统部分是模型的“线性”所在。它是一个由自变量 $x_1, x_2, \ldots, x_p$ 构成的线性组合,形式与线性回归完全相同。这个线性组合被称为线性预测子,记为 $\eta$ (eta)。 $$ \eta = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p $$ 用矩阵形式表示则为: $$ \eta = X\beta $$ 其中,$X$ 是{{{设计矩阵}}} (design matrix),包含了自变量的观测值以及一个常数项列(用于估计截距 $\beta_0$);$\beta$ 是待估计的{{{回归系数}}}向量。

无论因变量的分布多么复杂,GLM 的核心思想始终是:将这些复杂的因变量通过某种变换,使其与一个简单的线性结构关联起来。

### 三、连接函数 (The Link Function)

连接函数是 GLM 的精髓,它扮演着桥梁的角色,将随机部分(因变量的期望 $\mu$)和系统部分(线性预测子 $\eta$)连接在一起。连接函数记为 $g(\cdot)$,其关系式为: $$ g(\mu) = \eta $$ 其中,$\mu = E(Y)$ 是因变量 $Y$ 的期望值。

这个等式表明,我们建模的不是因变量期望本身与自变量的线性关系,而是经过连接函数变换后的因变量期望与自变量的线性关系。相应地,其逆运算为: $$ \mu = g^{-1}(\eta) = g^{-1}(X\beta) $$ $g^{-1}(\cdot)$ 称为逆连接函数。选择不同的连接函数,是为了确保模型的合理性。例如,如果因变量是概率(取值在 $[0, 1]$ 之间),连接函数需要将 $[0, 1]$ 区间映射到整个实数轴 $(-\infty, +\infty)$,以匹配线性预测子 $\eta$ 的取值范围。

下表列出了一些常见的连接函数及其对应的典型应用:

| 连接函数 | 函数形式 $g(\mu)$ | 典型分布 | 模型名称 | | -------------------- | --------------------------------------------- | -------------- | ---------------- | | 恒等连接 (Identity) | $g(\mu) = \mu$ | 正态分布 | 线性回归 | | 对数几率 (Logit) | $g(\mu) = \ln\left(\frac{\mu}{1-\mu}\right)$ | 二项分布 | {{{逻辑回归}}} | | 对数连接 (Log) | $g(\mu) = \ln(\mu)$ | 泊松分布 | {{{泊松回归}}} | | 概率单位 (Probit) | $g(\mu) = \Phi^{-1}(\mu)$ | 二项分布 | Probit 回归 | | 倒数连接 (Inverse) | $g(\mu) = \frac{1}{\mu}$ | 伽马分布 | 逆高斯回归 |

特别地,对于每一种指数族分布,都存在一个典范连接函数 (Canonical Link Function)。当使用典范连接函数时,模型具有一些优良的统计性质,例如参数估计的算法会更简单高效。Logit 是二项分布的典范连接函数,Log 是泊松分布的典范连接函数。

## GLM 的参数估计与模型评估

### 参数估计

由于 GLM 的因变量不再假定为正态分布,传统的{{{最小二乘法}}} (Ordinary Least Squares, OLS) 不再适用。GLM 的参数 $\beta$ 通常通过{{{最大似然估计}}} (Maximum Likelihood Estimation, MLE) 的方法来求解。

求解 GLM 的似然方程通常需要迭代算法,最常用的是{{{迭代重加权最小二乘法}}} (Iteratively Reweighted Least Squares, IRLS)。IRLS 算法本质上是{{{牛顿-拉弗森方法}}}或{{{费雪评分法}}}的一种实现,它通过一系列加权的线性回归来逼近最大似然估计值,过程高效且稳定。

### 模型评估

评估一个 GLM 的拟合优度同样与线性回归有所不同。

* 偏差 (Deviance):偏差是 GLM 中衡量模型拟合优度的核心指标,可以被看作是线性回归中{{{残差平方和}}} (Residual Sum of Squares) 的推广。它通过比较当前模型与一个能够完美拟合数据的{{{饱和模型}}} (Saturated Model) 之间的对数似然差异来计算。偏差越小,说明模型的拟合效果越好。 $$ D(y, \hat{\mu}) = 2 \phi [ \log L(\text{saturated model}) - \log L(\text{fitted model}) ] $$ * 假设检验:对于两个{{{嵌套模型}}} (nested models),其偏差的差值近似服从{{{卡方分布}}} ($\chi^2$ distribution),自由度为两个模型参数数量之差。这可以用来进行{{{假设检验}}},判断添加或移除某些变量是否显著改善了模型,这在功能上类似于线性回归中的 F 检验。 * 信息准则:在比较非嵌套模型或进行{{{模型选择}}}时,通常使用{{{赤池信息准则}}} (AIC) 或{{{贝叶斯信息准则}}} (BIC)。这些准则在评估模型拟合优度的同时,对模型的复杂性(参数数量)进行了惩罚,从而帮助选择兼具解释力和简洁性的最优模型。 * 残差分析:与线性回归类似,GLM 也有多种{{{残差}}}定义,如皮尔逊残差 (Pearson residuals) 和偏差残差 (deviance residuals),用于诊断模型是否存在异常值、异方差性或模型设定错误等问题。

## 总结:GLM 的优势

广义线性模型是现代应用统计学的一块基石,其主要优势在于:

1. 灵活性:能够处理各种类型的因变量数据(连续、分类、计数等),极大扩展了回归分析的应用场景。 2. 统一性:将多种回归模型(线性、逻辑、泊松等)纳入一个统一的理论框架,便于理解和比较。 3. 理论严谨性:通过连接函数确保了预测值的合理性(如概率在0到1之间,计数值为非负),避免了使用线性模型直接建模时可能出现的荒谬预测。

通过掌握广义线性模型的思想,学习者可以深刻理解不同回归模型之间的内在联系,并根据数据特性选择最合适的分析工具。