ARTICLE

逻辑斯蒂回归

逻辑斯蒂回归 (Logistic Regression) 逻辑斯蒂回归,亦称Logistic回归或Logit模型,是统计学与机器学习中用于处理 二分类问题二元结果的核心方法之一。其名称源于模型所依赖的Logistic函数(亦称Sigmoid函数),该函数呈"S"形曲线,能够将任意实数光滑地映射到(0, 1)区间,天然适合表示概率。作为广义线性模型(GLM)的

浏览 0 更新 2025-11-24

逻辑斯蒂回归 (Logistic Regression)

逻辑斯蒂回归,亦称Logistic回归或Logit模型,是统计学与机器学习中用于处理\wikilink{二分类问题}{二元结果}的核心方法之一。其名称源于模型所依赖的Logistic函数(亦称Sigmoid函数),该函数呈"S"形曲线,能够将任意实数光滑地映射到(0,1)(0, 1)区间,天然适合表示概率。作为广义线性模型(GLM)的重要成员,逻辑斯蒂回归在计量经济学、生物统计学、流行病学及数据科学中应用广泛。

模型形式与Logit变换

逻辑斯蒂回归的核心是将线性预测器β0+β1X1++βkXk\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k通过Logistic函数转化为条件概率:

P(Y=1X)=11+e(β0+β1X1++βkXk)P(Y=1 \mid \mathbf{X}) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k)}}

对上述概率进行Logit变换——取对数优势比——模型在对数优势尺度上呈现标准的线性形式:

logit(P)=ln(P1P)=β0+β1X1++βkXk\operatorname{logit}(P) = \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k

这正是"逻辑斯蒂"与"Logit"两个名称的数学根源:Logit变换作为连接函数(link function),将对数优势比与自变量进行线性关联,从而使得系数解释具有清晰的概率含义。

与线性概率模型的比较

直接使用普通最小二乘法(OLS)对二元因变量建模构成线性概率模型(LPM)。LPM虽简单直观,但存在三方面根本缺陷。其一,线性预测值可能超出[0,1][0,1]范围,产生无意义的概率估计。其二,二元因变量的误差项服从伯努利分布,其方差为P(1P)P(1-P),必然随自变量取值变化,导致异方差性,违背OLS的基本假设,使标准误和检验失效。其三,自变量对概率的边际效应恒为常数,无法刻画现实中的非线性特征——概率在接近0或1时变化趋缓而在中间区域(约0.5附近)最为敏感。逻辑斯蒂回归通过S形变换从根本上克服了上述三项缺陷。

系数解释:优势比与边际效应

逻辑斯蒂回归的系数βj\beta_j的严格含义为:XjX_j每增加一个单位,对数优势增加βj\beta_j。实践中更直观的解释通过优势比(Odds Ratio, OR)实现——取指数eβje^{\beta_j},表示事件发生优势的乘数变化因子。eβj>1e^{\beta_j} > 1意味着XjX_j增加会提高事件概率;eβj<1e^{\beta_j} < 1则降低概率;eβj=1e^{\beta_j} = 1表示无影响。

由于模型的非线性,自变量对概率本身的边际效应并非恒定:

PXj=P(1P)βj\frac{\partial P}{\partial X_j} = P(1-P)\beta_j

该效应依赖于所有自变量的当前取值。实践中通常报告均值处边际效应(MEM)或更具代表性的平均边际效应(AME)。

估计与模型评估

逻辑斯蒂回归的参数通过最大似然估计(MLE)获得——寻找使观测数据似然函数最大化的参数向量。因不存在解析解,需借助牛顿-拉弗森法或迭代加权最小二乘法(IRLS)等数值优化算法求解。模型整体显著性由似然比检验(LRT)评估,比较完整模型与仅含截距的零模型的对数似然值差异,统计量渐近服从卡方分布。单个系数显著性依赖Wald检验。拟合优度常用McFadden伪R2R^2衡量:RMcFadden2=1lnLfull/lnLnullR^2_{\text{McFadden}} = 1 - \ln L_{\text{full}} / \ln L_{\text{null}}。在分类任务中,ROC曲线AUC、混淆矩阵衍生的精确率和召回率是核心评价指标。

扩展与相关模型

当因变量为无序多分类时,可扩展至多项Logit模型(Multinomial Logit);当因变量为有序分类时,使用有序Logit模型(Ordered Logit)或比例优势模型。主要替代方案为Probit模型——以标准正态分布CDF代替Logistic函数,二者在实践中通常给出极为接近的预测和边际效应。在高维数据场景下,可将Lasso回归L1L_1惩罚引入逻辑斯蒂回归,同时实现变量选择与分类。