ARTICLE
Logit模型
Logit模型 (Logit Model) Logit模型,也称为逻辑斯谛回归 (Logistic Regression),是一种用于对二元结果(binary outcome)进行建模的统计模型。二元结果是指一个事件只有两种可能的结果,例如"是/否"、"成功/失败"、"通过/未通过"或"存活/死亡"。Logit模型的主要目标是估计一个或多个自变量(predi
Logit模型 (Logit Model)
Logit模型,也称为逻辑斯谛回归 (Logistic Regression),是一种用于对二元结果(binary outcome)进行建模的统计模型。二元结果是指一个事件只有两种可能的结果,例如"是/否"、"成功/失败"、"通过/未通过"或"存活/死亡"。Logit模型的主要目标是估计一个或多个自变量(predictor variables)对某一特定结果发生的概率的影响。
该模型是广义线性模型 (Generalized Linear Model, GLM) 的一种,在计量经济学、生物统计学、流行病学、社会科学以及机器学习领域的二元分类(binary classification)问题中得到了广泛应用。
为什么不直接使用线性回归?
对于初学者而言,一个常见的问题是:为什么不直接使用我们熟悉的线性回归模型来预测一个二元因变量 (通常编码为 0 和 1)的概率?在这种情况下使用的线性回归被称为线性概率模型 (Linear Probability Model, LPM)。然而,LPM存在几个严重缺陷,使得Logit模型成为更优越的选择:
- 预测概率越界:线性模型 的预测值范围是 。但概率的定义域必须在 区间内。因此,LPM可能会预测出小于0或大于1的概率,这在现实中是无意义的。
- 异方差性 (Heteroskedasticity):对于一个服从伯努利分布的二元变量,其方差为 ,其中 。这意味着误差项的方差依赖于自变量 的值,违反了普通最小二乘法 (OLS) 所需的同方差性假设。这会导致参数估计量虽然无偏,但不再是最佳线性无偏估计量 (BLUE),且其标准误和假设检验结果是不可靠的。
- 非线性的现实关系:自变量对概率的影响在现实中通常不是线性的。例如,增加一年受教育年限对收入处于中等水平的人找到工作的概率影响,可能远大于对一个已经拥有博士学位的人的影响。概率的变化在接近0和1时趋于平缓,而在中间部分(如0.5附近)变化最快。这种S型关系是线性模型无法捕捉的。
Logit模型的核心:Logistic函数
为了克服LPM的缺陷,Logit模型采用了一个非线性的转换,即Logistic函数(也称为Sigmoid函数)。该函数可以将任何实数映射到 区间内,完美地契合了概率的定义。
其数学形式为:
上式可以简化为:
其中, 是在给定自变量 (包含 的向量)的条件下,结果 发生的条件概率。 是待估计的系数向量。这个S形的函数确保了无论自变量的线性组合 取何值,其预测概率始终在0和1之间。
优势比与Logit变换
直接解释Logit模型中的系数 是困难的,因为它表示自变量 每增加一个单位,对数优势比(log-odds)的变化量。为了更直观地理解,我们需要引入优势比 (Odds Ratio) 的概念。
- 优势 (Odds):一个事件的"优势"定义为该事件发生的概率与不发生的概率之比。 \[ \text{Odds} = \frac{P(Y=1|\mathbf{X})}{1 - P(Y=1|\mathbf{X})} \] 将Logistic函数的表达式代入,经过化简可得: \[ \text{Odds} = e^{\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k} \]
- 对数优势 (Log-odds) 或 Logit:对优势取自然对数,我们得到一个线性关系,这就是模型的名称"Logit"的来源。 \[ \ln(\text{Odds}) = \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \dots + \beta_k X_k \] 这个变换被称为Logit变换。它揭示了Logit模型的核心:它是一个在对数优势比上呈线性的模型。在这里,Logit变换是连接自变量的线性部分和因变量期望(概率)的"连接函数" (link function)。
系数 () 的解释
理解Logit模型系数的解释至关重要,主要有两种方式:
基于优势比 (Odds Ratios) 的解释
对数优势比的线性关系使得系数的解释变得系统。考虑自变量 变化一个单位,而其他变量保持不变:
取指数后得到:
这里的 就是优势比 (Odds Ratio, OR)。它的解释是:当自变量 每增加一个单位,事件发生的优势将变为原来的 倍,前提是其他所有自变量保持不变。
- 如果 ,则 ,表明 的增加会提高事件发生的优势。
- 如果 ,则 ,表明 的增加会降低事件发生的优势。
- 如果 ,则 ,表明 对事件发生的优势没有影响。
基于边际效应 (Marginal Effects) 的解释
虽然优势比提供了恒定的乘数效应,但许多人更关心自变量变化对概率本身的直接影响。这种影响被称为边际效应。与线性模型不同,在Logit模型中,一个自变量的边际效应并不是一个常数,它依赖于所有自变量的当前值。
对于一个连续变量 ,其边际效应的数学表达式为:
由于这个值不是恒定的,实践中通常报告两种边际效应:
- 均值处的边际效应 (Marginal Effect at the Mean, MEM):计算所有自变量取其样本均值时的边际效应。
- 平均边际效应 (Average Marginal Effect, AME):为样本中的每个观测值计算一个边际效应,然后取其平均值。AME通常被认为更具代表性。
模型估计与评估
估计方法
Logit模型并非使用普通最小二乘法 (OLS) 进行估计,而是采用最大似然估计 (Maximum Likelihood Estimation, MLE)。MLE的核心思想是寻找一组参数 ,使得当前观测到的样本数据出现的概率(即似然函数)最大化。
对于一个包含 个独立观测值的样本,其似然函数为:
其中 是第 个观测值的实际结果(0或1), 是模型预测的概率。由于连乘在计算上不便,通常最大化其对数形式,即对数似然函数 (Log-Likelihood Function)。
拟合优度与模型检验
由于没有类似线性回归中的残差平方和,传统的决定系数 在Logit模型中不适用。取而代之的是一些伪R平方 (Pseudo R-squared) 指标,例如:
- 麦克法登R平方 (McFadden's ):,其中 是所估计模型的对数似然值, 是只包含截距项的模型的对数似然值。它的取值在0和1之间,值越大表示模型拟合越好。
对模型整体显著性的检验通常使用似然比检验 (Likelihood-Ratio Test),它比较了完整模型和零模型(仅含截距)的对数似然值。该检验的统计量近似服从卡方分布。单个系数的显著性则通常通过Wald检验或z统计量(在大样本下近似)来进行,其解释类似于线性回归中的t检验。
在分类任务中,其他评估指标还包括混淆矩阵 (Confusion Matrix)、准确率 (Accuracy)、精确率 (Precision)、召回率 (Recall) 和ROC曲线 (Receiver Operating Characteristic Curve) 及其下的面积AUC (Area Under the Curve)。