ARTICLE

广义线性模型

广义线性模型 (GLM) 广义线性模型统一扩展传统线性回归:因变量不限于正态分布,可选任何指数族分布(正态/二项/泊松/伽马/负二项等)。三部分: 三组成部分 随机部分:Y 的概率分布属指数族,密度:f(y , ) = ((y - b( ))/a( ) + c(y, ))。常见:正态→经典线性、二项→逻辑回归/Probit、泊松→泊松回归(计数数据)、伽马→

浏览 62 更新 2025-10-26

广义线性模型 (GLM)

广义线性模型统一扩展传统线性回归:因变量不限于正态分布,可选任何指数族分布(正态/二项/泊松/伽马/负二项等)。三部分:

三组成部分

随机部分YY 的概率分布属指数族,密度:f(yθ,ϕ)=exp((yθb(θ))/a(ϕ)+c(y,ϕ))f(y\mid\theta,\phi) = \exp((y\theta - b(\theta))/a(\phi) + c(y,\phi))。常见:正态→经典线性、二项→逻辑回归/Probit、泊松→泊松回归(计数数据)、伽马→右偏正连续(保险索赔)、负二项→过度离散计数。

系统部分线性预测子 η=Xβ\eta = X\beta设计矩阵 XX×系数向量 β\beta)。

连接函数 g(μ)=ηg(\mu) = \etaμ=E(Y)\mu = E(Y)):非直接建模拟合 μXβ\mu \sim X\beta,而是变换后。典范连接(匹配分布)具优良统计性质:恒等 g(μ)=μg(\mu)=\mu→正态→线性回归;Logit g(μ)=ln(μ/(1μ))g(\mu)=\ln(\mu/(1-\mu))→二项→逻辑回归(典范);对数 g(μ)=lnμg(\mu)=\ln\mu→泊松(典范);Probit→Φ1(μ)\Phi^{-1}(\mu);倒数→伽马。

参数估计与评估

最大似然估计(MLE)而非OLS。标准算法迭代重加权最小二乘法(IRLS,牛顿-拉弗森/费雪评分实现)。

评估:偏差(Deviance,残差平方和推广)比较拟合模型与饱和模型对数似然差:D=2ϕ[logL(sat)logL(fit)]D = 2\phi[\log L(\text{sat}) - \log L(\text{fit})]嵌套模型偏差差∼χ2\chi^2(似然比检验,类似F检验)。模型选择AIC/BIC残差诊断皮尔逊残差/偏差残差。

优势

灵活处理各类因变量(连续/分类/计数);统一多种回归模型于一框架;通过连接函数确保预测合理(概率∈[0,1],计数非负)。