ARTICLE

Logit模型

Logit模型 (Logit Model) Logit模型,也称为逻辑斯谛回归 (Logistic Regression),是一种用于对二元结果(binary outcome)进行建模的统计模型。二元结果是指一个事件只有两种可能的结果,例如"是/否"、"成功/失败"、"通过/未通过"或"存活/死亡"。Logit模型的主要目标是估计一个或多个自变量(predi

浏览 66 更新 2025-10-29

Logit模型 (Logit Model)

Logit模型,也称为逻辑斯谛回归 (Logistic Regression),是一种用于对二元结果(binary outcome)进行建模的统计模型。二元结果是指一个事件只有两种可能的结果,例如"是/否"、"成功/失败"、"通过/未通过"或"存活/死亡"。Logit模型的主要目标是估计一个或多个自变量(predictor variables)对某一特定结果发生的概率的影响。

该模型是广义线性模型 (Generalized Linear Model, GLM) 的一种,在计量经济学生物统计学、流行病学、社会科学以及机器学习领域的二元分类(binary classification)问题中得到了广泛应用。

为什么不直接使用线性回归?

对于初学者而言,一个常见的问题是:为什么不直接使用我们熟悉的线性回归模型来预测一个二元因变量 Y Y (通常编码为 0 和 1)的概率?在这种情况下使用的线性回归被称为线性概率模型 (Linear Probability Model, LPM)。然而,LPM存在几个严重缺陷,使得Logit模型成为更优越的选择:

  1. 预测概率越界:线性模型 P(Y=1X)=β0+β1X P(Y=1|X) = \beta_0 + \beta_1 X 的预测值范围是 (,+) (-\infty, +\infty) 。但概率的定义域必须在 [0,1] [0, 1] 区间内。因此,LPM可能会预测出小于0或大于1的概率,这在现实中是无意义的。
  2. 异方差性 (Heteroskedasticity):对于一个服从伯努利分布的二元变量,其方差p(1p) p(1-p) ,其中 p=P(Y=1X) p = P(Y=1|X) 。这意味着误差项的方差依赖于自变量 X X 的值,违反了普通最小二乘法 (OLS) 所需的同方差性假设。这会导致参数估计量虽然无偏,但不再是最佳线性无偏估计量 (BLUE),且其标准误和假设检验结果是不可靠的。
  3. 非线性的现实关系:自变量对概率的影响在现实中通常不是线性的。例如,增加一年受教育年限对收入处于中等水平的人找到工作的概率影响,可能远大于对一个已经拥有博士学位的人的影响。概率的变化在接近0和1时趋于平缓,而在中间部分(如0.5附近)变化最快。这种S型关系是线性模型无法捕捉的。

Logit模型的核心:Logistic函数

为了克服LPM的缺陷,Logit模型采用了一个非线性的转换,即Logistic函数(也称为Sigmoid函数)。该函数可以将任何实数映射到 (0,1) (0, 1) 区间内,完美地契合了概率的定义。

其数学形式为:

P(Y=1X)=eβ0+β1X1++βkXk1+eβ0+β1X1++βkXkP(Y=1 | \mathbf{X}) = \frac{e^{\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k}}{1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k}}

上式可以简化为:

P(Y=1X)=11+e(β0+Xβ)P(Y=1 | \mathbf{X}) = \frac{1}{1 + e^{-(\beta_0 + \mathbf{X}\boldsymbol{\beta})}}

其中,P(Y=1X) P(Y=1 | \mathbf{X}) 是在给定自变量 X \mathbf{X} (包含 X1,,Xk X_1, \dots, X_k 的向量)的条件下,结果 Y=1 Y=1 发生的条件概率β \boldsymbol{\beta} 是待估计的系数向量。这个S形的函数确保了无论自变量的线性组合 β0+Xβ \beta_0 + \mathbf{X}\boldsymbol{\beta} 取何值,其预测概率始终在0和1之间。

优势比与Logit变换

直接解释Logit模型中的系数 βj \beta_j 是困难的,因为它表示自变量 Xj X_j 每增加一个单位,对数优势比(log-odds)的变化量。为了更直观地理解,我们需要引入优势比 (Odds Ratio) 的概念。

  1. 优势 (Odds):一个事件的"优势"定义为该事件发生的概率与不发生的概率之比。 \[ \text{Odds} = \frac{P(Y=1|\mathbf{X})}{1 - P(Y=1|\mathbf{X})} \] 将Logistic函数的表达式代入,经过化简可得: \[ \text{Odds} = e^{\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k} \]
  2. 对数优势 (Log-odds) 或 Logit:对优势取自然对数,我们得到一个线性关系,这就是模型的名称"Logit"的来源。 \[ \ln(\text{Odds}) = \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \dots + \beta_k X_k \] 这个变换被称为Logit变换。它揭示了Logit模型的核心:它是一个在对数优势比上呈线性的模型。在这里,Logit变换是连接自变量的线性部分和因变量期望(概率)的"连接函数" (link function)。

系数 (β \beta ) 的解释

理解Logit模型系数的解释至关重要,主要有两种方式:

基于优势比 (Odds Ratios) 的解释

对数优势比的线性关系使得系数的解释变得系统。考虑自变量 Xj X_j 变化一个单位,而其他变量保持不变:

ln(Odds2)ln(Odds1)=βj(Xj+1)βjXj=βj\ln(\text{Odds}_2) - \ln(\text{Odds}_1) = \beta_j (X_j+1) - \beta_j X_j = \beta_j
ln(Odds2Odds1)=βj\ln\left(\frac{\text{Odds}_2}{\text{Odds}_1}\right) = \beta_j

取指数后得到:

Odds2Odds1=eβj\frac{\text{Odds}_2}{\text{Odds}_1} = e^{\beta_j}

这里的 eβj e^{\beta_j} 就是优势比 (Odds Ratio, OR)。它的解释是:当自变量 Xj X_j 每增加一个单位,事件发生的优势将变为原来的 eβj e^{\beta_j} 倍,前提是其他所有自变量保持不变。

  • 如果 βj>0 \beta_j > 0 ,则 eβj>1 e^{\beta_j} > 1 ,表明 Xj X_j 的增加会提高事件发生的优势。
  • 如果 βj<0 \beta_j < 0 ,则 0<eβj<1 0 < e^{\beta_j} < 1 ,表明 Xj X_j 的增加会降低事件发生的优势。
  • 如果 βj=0 \beta_j = 0 ,则 eβj=1 e^{\beta_j} = 1 ,表明 Xj X_j 对事件发生的优势没有影响。

基于边际效应 (Marginal Effects) 的解释

虽然优势比提供了恒定的乘数效应,但许多人更关心自变量变化对概率本身的直接影响。这种影响被称为边际效应。与线性模型不同,在Logit模型中,一个自变量的边际效应并不是一个常数,它依赖于所有自变量的当前值。

对于一个连续变量 Xj X_j ,其边际效应的数学表达式为:

P(Y=1X)Xj=P(X)×(1P(X))×βj\frac{\partial P(Y=1|\mathbf{X})}{\partial X_j} = P(\mathbf{X}) \times (1-P(\mathbf{X})) \times \beta_j

由于这个值不是恒定的,实践中通常报告两种边际效应:

  • 均值处的边际效应 (Marginal Effect at the Mean, MEM):计算所有自变量取其样本均值时的边际效应。
  • 平均边际效应 (Average Marginal Effect, AME):为样本中的每个观测值计算一个边际效应,然后取其平均值。AME通常被认为更具代表性。

模型估计与评估

估计方法

Logit模型并非使用普通最小二乘法 (OLS) 进行估计,而是采用最大似然估计 (Maximum Likelihood Estimation, MLE)。MLE的核心思想是寻找一组参数 β \boldsymbol{\beta} ,使得当前观测到的样本数据出现的概率(即似然函数)最大化。

对于一个包含 N N 个独立观测值的样本,其似然函数为:

L(βY,X)=i=1NPiyi(1Pi)1yiL(\boldsymbol{\beta} | \mathbf{Y}, \mathbf{X}) = \prod_{i=1}^N P_i^{y_i} (1-P_i)^{1-y_i}

其中 yi y_i 是第 i i 个观测值的实际结果(0或1),Pi=P(Yi=1Xi) P_i = P(Y_i=1|\mathbf{X}_i) 是模型预测的概率。由于连乘在计算上不便,通常最大化其对数形式,即对数似然函数 (Log-Likelihood Function)。

拟合优度与模型检验

由于没有类似线性回归中的残差平方和,传统的决定系数 R2 R^2 在Logit模型中不适用。取而代之的是一些伪R平方 (Pseudo R-squared) 指标,例如:

  • 麦克法登R平方 (McFadden's R2 R^2 )1ln(Lfull)ln(Lnull) 1 - \frac{\ln(L_{full})}{\ln(L_{null})} ,其中 Lfull L_{full} 是所估计模型的对数似然值,Lnull L_{null} 是只包含截距项的模型的对数似然值。它的取值在0和1之间,值越大表示模型拟合越好。

对模型整体显著性的检验通常使用似然比检验 (Likelihood-Ratio Test),它比较了完整模型和零模型(仅含截距)的对数似然值。该检验的统计量近似服从卡方分布。单个系数的显著性则通常通过Wald检验或z统计量(在大样本下近似)来进行,其解释类似于线性回归中的t检验。

在分类任务中,其他评估指标还包括混淆矩阵 (Confusion Matrix)、准确率 (Accuracy)、精确率 (Precision)、召回率 (Recall) 和ROC曲线 (Receiver Operating Characteristic Curve) 及其下的面积AUC (Area Under the Curve)。

相关与扩展模型

  • Probit模型:是Logit模型最常见的替代品。它使用标准正态分布累积分布函数 (CDF) 作为连接函数,而不是Logistic分布的CDF。在实践中,Probit和Logit模型通常会产生非常相似的预测结果和边际效应。
  • 多项Logit模型 (Multinomial Logit Model):当因变量是多于两个类别的名义变量(无序)时使用,例如交通方式选择(汽车、公交、地铁)。
  • 有序Logit模型 (Ordered Logit Model):当因变量是有序分类变量时使用,例如产品评级(差、中、好)。