ARTICLE

一般线性模型

一般线性模型 (General Linear Model) 一般线性模型(General Linear Model,简称 GLM)是统计学中一类核心的建模框架,它将线性回归模型、方差分析(ANOVA)、协方差分析(ANCOVA)以及 t 检验等多种经典统计方法统一在同一数学体系之下。模型的基本形式为: 其中 y 是 n 1 的因变量向量, X 是 n p 的

浏览 0 更新 2025-11-08

一般线性模型 (General Linear Model)

一般线性模型(General Linear Model,简称 GLM)是统计学中一类核心的建模框架,它将线性回归模型方差分析(ANOVA)、协方差分析(ANCOVA)以及 t 检验等多种经典统计方法统一在同一数学体系之下。模型的基本形式为:

y=Xβ+ε\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}

其中 y\mathbf{y}n×1n \times 1 的因变量向量,X\mathbf{X}n×pn \times p 的设计矩阵,包含自变量、虚拟变量及交互项;β\boldsymbol{\beta}p×1p \times 1 的未知参数向量;ε\boldsymbol{\varepsilon}n×1n \times 1 的随机误差向量。核心假定包括:E[ε]=0\mathbb{E}[\boldsymbol{\varepsilon}] = \mathbf{0}(零均值)、Var[ε]=σ2In\operatorname{Var}[\boldsymbol{\varepsilon}] = \sigma^2\mathbf{I}_n(同方差且无自相关),以及 X\mathbf{X} 列满秩(rank(X)=p<n\operatorname{rank}(\mathbf{X}) = p < n)。当进一步假定 εN(0,σ2I)\boldsymbol{\varepsilon} \sim N(\mathbf{0}, \sigma^2\mathbf{I}) 时,可进行精确的有限样本推断。

参数估计与Gauss-Markov定理

普通最小二乘法(OLS)通过最小化残差平方和来估计参数:

β^OLS=(XX)1Xy\hat{\boldsymbol{\beta}}_{\text{OLS}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}

Gauss-Markov定理保证,在经典假定下,OLS估计量是所有线性无偏估计量中方差最小的(BLUE)。误差方差的无偏估计量为 σ^2=RSS/(np)\hat{\sigma}^2 = \text{RSS}/(n-p),其中 RSS\text{RSS} 为残差平方和。

从几何角度看,y\mathbf{y}Rn\mathbb{R}^n 中的向量,X\mathbf{X} 的列张成 pp 维子空间,y^=Xβ^\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol{\beta}}y\mathbf{y} 在该子空间上的正交投影,残差向量 ε^=yy^\hat{\boldsymbol{\varepsilon}} = \mathbf{y} - \hat{\mathbf{y}} 垂直于该子空间。这一分解对应着平方和分解:yy=y^y^+ε^ε^\mathbf{y}'\mathbf{y} = \hat{\mathbf{y}}'\hat{\mathbf{y}} + \hat{\boldsymbol{\varepsilon}}'\hat{\boldsymbol{\varepsilon}}

假设检验与方差分析

在正态性假定下,单个系数的显著性用 t 检验:t=β^j/SE(β^j)tnpt = \hat{\beta}_j / \operatorname{SE}(\hat{\beta}_j) \sim t_{n-p}。对于一般线性约束 H0:Rβ=rH_0: \mathbf{R}\boldsymbol{\beta} = \mathbf{r},使用 F 检验:

F=(RSSrRSSu)/qRSSu/(np)Fq,npF = \frac{(\text{RSS}_r - \text{RSS}_u) / q}{\text{RSS}_u / (n - p)} \sim F_{q, \, n-p}

回归整体的 F 检验(除截距外所有系数为零)的统计量为 F=R2/(p1)(1R2)/(np)Fp1,npF = \frac{R^2/(p-1)}{(1-R^2)/(n-p)} \sim F_{p-1, n-p},其中 R2R^2 为决定系数,度量模型对因变量变异的解释比例。

与特殊模型的关系

一般线性模型具有强大的统一性。简单线性回归多元线性回归是其直接特例。单因素方差分析等价于因变量对一组虚拟变量的回归。双因素方差分析还包含交互项。协方差分析(ANCOVA)在分类变量基础上加入连续型协变量。独立样本 t 检验等价于分组虚拟变量的回归(t² = F)。因此,GLM 为理解这些方法的内在统一性提供了理论视角。

模型诊断与扩展

模型有效性依赖对假定的检验。常用诊断包括:残差图检测异方差和非线性;Q-Q图Shapiro-Wilk检验评估正态性;Durbin-Watson检验检测自相关;方差膨胀因子(VIF)诊断多重共线性。修正策略包括:Huber-White稳健标准误应对异方差;广义最小二乘法(GLS)处理自相关;岭回归LASSO缓解多重共线性。一般线性模型的推广是广义线性模型(Generalized Linear Model),通过连接函数和指数族分布将因变量扩展至二分类、计数等非连续数据类型,极大拓展了线性建模的应用边界。