ARTICLE

Logit模型

Logit模型 (Logit Model) Logit模型，也称为逻辑斯谛回归 (Logistic Regression)，是一种用于对二元结果（binary outcome）进行建模的统计模型。二元结果是指一个事件只有两种可能的结果，例如"是/否"、"成功/失败"、"通过/未通过"或"存活/死亡"。Logit模型的主要目标是估计一个或多个自变量（predi

浏览 66 更新 2025-10-29

Logit模型 (Logit Model)

Logit模型，也称为逻辑斯谛回归 (Logistic Regression)，是一种用于对二元结果（binary outcome）进行建模的统计模型。二元结果是指一个事件只有两种可能的结果，例如"是/否"、"成功/失败"、"通过/未通过"或"存活/死亡"。Logit模型的主要目标是估计一个或多个自变量（predictor variables）对某一特定结果发生的概率的影响。

该模型是广义线性模型 (Generalized Linear Model, GLM) 的一种，在计量经济学、生物统计学、流行病学、社会科学以及机器学习领域的二元分类（binary classification）问题中得到了广泛应用。

为什么不直接使用线性回归？

对于初学者而言，一个常见的问题是：为什么不直接使用我们熟悉的线性回归模型来预测一个二元因变量 $Y$ （通常编码为 0 和 1）的概率？在这种情况下使用的线性回归被称为线性概率模型 (Linear Probability Model, LPM)。然而，LPM存在几个严重缺陷，使得Logit模型成为更优越的选择：

预测概率越界：线性模型 $P(Y=1|X) = \beta_0 + \beta_1 X$ 的预测值范围是 $(-\infty, +\infty)$ 。但概率的定义域必须在 $[0, 1]$ 区间内。因此，LPM可能会预测出小于0或大于1的概率，这在现实中是无意义的。
异方差性 (Heteroskedasticity)：对于一个服从伯努利分布的二元变量，其方差为 $p(1-p)$ ，其中 $p = P(Y=1|X)$ 。这意味着误差项的方差依赖于自变量 $X$ 的值，违反了普通最小二乘法 (OLS) 所需的同方差性假设。这会导致参数估计量虽然无偏，但不再是最佳线性无偏估计量 (BLUE)，且其标准误和假设检验结果是不可靠的。
非线性的现实关系：自变量对概率的影响在现实中通常不是线性的。例如，增加一年受教育年限对收入处于中等水平的人找到工作的概率影响，可能远大于对一个已经拥有博士学位的人的影响。概率的变化在接近0和1时趋于平缓，而在中间部分（如0.5附近）变化最快。这种S型关系是线性模型无法捕捉的。

Logit模型的核心：Logistic函数

为了克服LPM的缺陷，Logit模型采用了一个非线性的转换，即Logistic函数（也称为Sigmoid函数）。该函数可以将任何实数映射到 $(0, 1)$ 区间内，完美地契合了概率的定义。

其数学形式为：

P(Y=1 | \mathbf{X}) = \frac{e^{\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k}}{1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k}}

上式可以简化为：

P(Y=1 | \mathbf{X}) = \frac{1}{1 + e^{-(\beta_0 + \mathbf{X}\boldsymbol{\beta})}}

其中， $P(Y=1 | \mathbf{X})$ 是在给定自变量 $\mathbf{X}$ （包含 $X_1, \dots, X_k$ 的向量）的条件下，结果 $Y=1$ 发生的条件概率。 $\boldsymbol{\beta}$ 是待估计的系数向量。这个S形的函数确保了无论自变量的线性组合 $\beta_0 + \mathbf{X}\boldsymbol{\beta}$ 取何值，其预测概率始终在0和1之间。

优势比与Logit变换

直接解释Logit模型中的系数 $\beta_j$ 是困难的，因为它表示自变量 $X_j$ 每增加一个单位，对数优势比（log-odds）的变化量。为了更直观地理解，我们需要引入优势比 (Odds Ratio) 的概念。

优势 (Odds)：一个事件的"优势"定义为该事件发生的概率与不发生的概率之比。 \[ \text{Odds} = \frac{P(Y=1|\mathbf{X})}{1 - P(Y=1|\mathbf{X})} \] 将Logistic函数的表达式代入，经过化简可得： \[ \text{Odds} = e^{\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k} \]
对数优势 (Log-odds) 或 Logit：对优势取自然对数，我们得到一个线性关系，这就是模型的名称"Logit"的来源。 \[ \ln(\text{Odds}) = \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \dots + \beta_k X_k \] 这个变换被称为Logit变换。它揭示了Logit模型的核心：它是一个在对数优势比上呈线性的模型。在这里，Logit变换是连接自变量的线性部分和因变量期望（概率）的"连接函数" (link function)。

系数 ( $\beta$ ) 的解释

理解Logit模型系数的解释至关重要，主要有两种方式：

基于优势比 (Odds Ratios) 的解释

对数优势比的线性关系使得系数的解释变得系统。考虑自变量 $X_j$ 变化一个单位，而其他变量保持不变：

\ln(\text{Odds}_2) - \ln(\text{Odds}_1) = \beta_j (X_j+1) - \beta_j X_j = \beta_j

\ln\left(\frac{\text{Odds}_2}{\text{Odds}_1}\right) = \beta_j

取指数后得到：

\frac{\text{Odds}_2}{\text{Odds}_1} = e^{\beta_j}

这里的 $e^{\beta_j}$ 就是优势比 (Odds Ratio, OR)。它的解释是：当自变量 $X_j$ 每增加一个单位，事件发生的优势将变为原来的 $e^{\beta_j}$ 倍，前提是其他所有自变量保持不变。

如果 $\beta_j > 0$ ，则 $e^{\beta_j} > 1$ ，表明 $X_j$ 的增加会提高事件发生的优势。
如果 $\beta_j < 0$ ，则 $0 < e^{\beta_j} < 1$ ，表明 $X_j$ 的增加会降低事件发生的优势。
如果 $\beta_j = 0$ ，则 $e^{\beta_j} = 1$ ，表明 $X_j$ 对事件发生的优势没有影响。

基于边际效应 (Marginal Effects) 的解释

虽然优势比提供了恒定的乘数效应，但许多人更关心自变量变化对概率本身的直接影响。这种影响被称为边际效应。与线性模型不同，在Logit模型中，一个自变量的边际效应并不是一个常数，它依赖于所有自变量的当前值。

对于一个连续变量 $X_j$ ，其边际效应的数学表达式为：

\frac{\partial P(Y=1|\mathbf{X})}{\partial X_j} = P(\mathbf{X}) \times (1-P(\mathbf{X})) \times \beta_j

由于这个值不是恒定的，实践中通常报告两种边际效应：

均值处的边际效应 (Marginal Effect at the Mean, MEM)：计算所有自变量取其样本均值时的边际效应。
平均边际效应 (Average Marginal Effect, AME)：为样本中的每个观测值计算一个边际效应，然后取其平均值。AME通常被认为更具代表性。

模型估计与评估

估计方法

Logit模型并非使用普通最小二乘法 (OLS) 进行估计，而是采用最大似然估计 (Maximum Likelihood Estimation, MLE)。MLE的核心思想是寻找一组参数 $\boldsymbol{\beta}$ ，使得当前观测到的样本数据出现的概率（即似然函数）最大化。

对于一个包含 $N$ 个独立观测值的样本，其似然函数为：

L(\boldsymbol{\beta} | \mathbf{Y}, \mathbf{X}) = \prod_{i=1}^N P_i^{y_i} (1-P_i)^{1-y_i}

其中 $y_i$ 是第 $i$ 个观测值的实际结果（0或1）， $P_i = P(Y_i=1|\mathbf{X}_i)$ 是模型预测的概率。由于连乘在计算上不便，通常最大化其对数形式，即对数似然函数 (Log-Likelihood Function)。

拟合优度与模型检验

由于没有类似线性回归中的残差平方和，传统的决定系数 $R^2$ 在Logit模型中不适用。取而代之的是一些伪R平方 (Pseudo R-squared) 指标，例如：

麦克法登R平方 (McFadden's $R^2$ )： $1 - \frac{\ln(L_{full})}{\ln(L_{null})}$ ，其中 $L_{full}$ 是所估计模型的对数似然值， $L_{null}$ 是只包含截距项的模型的对数似然值。它的取值在0和1之间，值越大表示模型拟合越好。

对模型整体显著性的检验通常使用似然比检验 (Likelihood-Ratio Test)，它比较了完整模型和零模型（仅含截距）的对数似然值。该检验的统计量近似服从卡方分布。单个系数的显著性则通常通过Wald检验或z统计量（在大样本下近似）来进行，其解释类似于线性回归中的t检验。

在分类任务中，其他评估指标还包括混淆矩阵 (Confusion Matrix)、准确率 (Accuracy)、精确率 (Precision)、召回率 (Recall) 和ROC曲线 (Receiver Operating Characteristic Curve) 及其下的面积AUC (Area Under the Curve)。