ARTICLE

GLM

GLM（Generalized Linear Model，广义线性模型）是由约翰·内尔德（John Nelder）和罗伯特·韦德伯恩（Robert Wedderburn）于1972年提出的一类极具影响力的统计模型框架。它系统性地将经典线性回归扩展至非正态分布的响应变量，为分类数据、计数数据和偏态连续数据提供了统一的建模工具。广义线性模型是现代统计学中应用最为

浏览 4 更新 2025-11-11

GLM（Generalized Linear Model，广义线性模型）是由约翰·内尔德（John Nelder）和罗伯特·韦德伯恩（Robert Wedderburn）于1972年提出的一类极具影响力的统计模型框架。它系统性地将经典线性回归扩展至非正态分布的响应变量，为分类数据、计数数据和偏态连续数据提供了统一的建模工具。广义线性模型是现代统计学中应用最为广泛的方法之一，在生物统计、计量经济学、社会科学、流行病学和机器学习等领域均发挥着基石性作用。

模型的三大核心组成部分

广义线性模型由三个相互关联的部分构成，这一结构化分解使其兼具灵活性与可解释性。第一是随机成分（Random Component），指响应变量 $Y$ 服从指数族分布中的某一特定分布，包括正态分布、二项分布、泊松分布、伽马分布和逆高斯分布等。这一设定使得GLM能够处理形态各异的数据类型，打破了经典线性回归对正态误差的刚性要求。第二是系统成分（Systematic Component），即线性预测项 $\eta = X\beta$ ，其中 $X$ 为设计矩阵， $\beta$ 为待估参数向量。这一线性组合的形式与经典回归中的线性预测器完全相同。第三是连接函数（Link Function） $g(\cdot)$ ，它建立起随机成分的期望值与系统成分之间的桥梁—— $g(\mu) = \eta$ ，其中 $\mu = E(Y|X)$ 。连接函数的引入是GLM区别于经典回归的核心创新，它允许响应变量期望值的非线性变换与线性预测器相匹配。

连接函数与指数族分布

连接函数的选择直接决定了GLM的表现形态和行为特性。对于正态分布数据，恒等连接函数 $g(\mu) = \mu$ 使GLM退化为经典线性回归；对于二项分布数据（如二元分类问题），逻辑连接函数 $g(\mu) = \ln[\mu/(1-\mu)]$ 导出逻辑回归模型，而概率单位连接函数 $g(\mu) = \Phi^{-1}(\mu)$ 则导出Probit回归；对于计数数据（如某疾病发生次数），自然连接函数为对数连接 $g(\mu) = \ln(\mu)$ ，对应泊松回归模型。每种分布都存在一个特定的标准连接函数（Canonical Link），使得充分统计量具有简洁的形式并确保似然函数的凸性，从而极大便利了参数估计的数值计算。更一般地，研究者也可以根据数据特征和理论需要选择非标准连接函数，这一灵活性是GLM在应用实践中广受欢迎的重要原因。

参数估计与迭代加权最小二乘法

GLM的参数估计采用极大似然估计（Maximum Likelihood Estimation, MLE），而非经典回归中的普通最小二乘法。由于指数族分布的对数似然函数具有全局凹性，极大似然估计值唯一且可以通过迭代加权最小二乘法（Iteratively Reweighted Least Squares, IRLS）高效求得。IRLS算法的核心思想在于：在每一步迭代中，利用当前参数估计值构造一个调整后的响应变量（Working Response）和相应的观测权重，然后执行一次加权最小二乘回归更新参数估计值，如此反复直至收敛。该算法计算效率高、数值稳定性好，且无需显式计算二阶导数矩阵的逆矩阵，使其成为绝大多数统计软件中GLM拟合的标准实现方式。在正则性条件下，极大似然估计量具有一致性、渐近正态性和渐近有效性，这为统计推断提供了坚实的理论基础。

模型诊断与拟合优度评估

与经典线性回归一样，GLM的模型诊断和拟合优度评估是建模实践中不可或缺的环节。偏离度（Deviance）是GLM中衡量模型拟合质量的核心指标，定义为饱和模型与当前模型的对数似然值之差的二倍，其渐近分布服从卡方分布，可据此构造似然比检验。皮尔逊卡方统计量（Pearson Chi-Square）是另一种常用的拟合优度指标。标准化残差（Pearson残差和偏离度残差）可用于检测异常值和模型误设；帽子矩阵（Hat Matrix）的杠杆值和库克距离（Cook's Distance）则用于识别强影响点。连接函数的恰当性可以通过添加连接参数的Box-Tidwell检验或绘制半正态残差图进行诊断。在过度离散问题——即数据的实际变异超出模型假设的方差结构——的处理上，研究者可以引入准似然方法（Quasi-Likelihood）或采用负二项分布替代泊松分布。

经典应用场景

广义线性模型在多个学科中有着标志性的应用。在流行病学中，逻辑回归（Logistic Regression）被广泛用于估计疾病风险因素的优势比（Odds Ratio），是病例对照研究和队列研究的标准分析方法；泊松回归（Poisson Regression）常用于发病率、死亡率的建模，通过对数连接函数解释暴露量与事件计数之间的关系。在经济学中，Probit模型和Logit模型是离散选择分析（如劳动力参与决策、产品购买行为）的基准方法；伽马回归常用于右偏且异方差的连续数据（如医疗费用、保险赔付金额）。在生态学中，零膨胀模型（Zero-Inflated Models）和 hurdle模型处理过量零计数问题时，本质上就是在GLM框架上的扩展。在保险精算中，广义线性模型是费率厘定和索赔频率建模的标准工具，得到了各国监管机构的广泛认可。

GLM与线性回归的区别与联系

理解GLM与经典线性回归的区别与联系，有助于把握统计建模方法论的整体脉络。经典线性回归 $Y = X\beta + \varepsilon$ 本质上可视为GLM在正态误差和恒等连接下的特例。二者共享线性预测器的结构，但在三个核心维度上存在根本差异：一是误差分布假设——经典回归仅允许正态分布，而GLM支持整个指数族；二是方差结构——后者假设方差恒定（同方差性），前者允许方差随均值变化（如泊松分布的方差等于均值）；三是参数解释——在经典回归中，回归系数直接解释为单位变化引起的期望响应的绝对变化量，而在GLM中，回归系数的解释依赖于连接函数的形式，以逻辑回归为例，系数指数化后得到的是优势比。这一差异要求研究者在报告和解读GLM结果时更为审慎。

模型的扩展与前沿发展

GLM的理论框架自诞生以来经历了多方向的拓展。广义加性模型（Generalized Additive Model, GAM）通过引入平滑函数替代线性预测器中的线性项，使模型能够捕捉非线性的特征效应，同时保留了GLM的连接函数结构和指数族分布框架。广义线性混合模型（Generalized Linear Mixed Model, GLMM）在GLM的线性预测器中加入随机效应项，使其适用于纵向数据、重复测量数据和聚类数据的分析。惩罚广义线性模型（如Lasso-GLM和Ridge-GLM）将正则化方法引入GLM估计，在高维数据场景下实现了变量选择和参数估计的联合求解。贝叶斯广义线性模型为参数估计引入先验分布，通过马尔可夫链蒙特卡洛方法或变分推断获取后验分布，为不确定性的量化提供了完备的概率框架。这些扩展共同构成了一个丰富且仍在持续演化的统计建模体系，使得GLM的方法论内核历久弥新。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。