ARTICLE

Probit模型

Probit模型 (Probit Model) Probit模型 (Probit Model) 是一种广泛应用于统计学、计量经济学以及其他社会科学领域的回归分析模型。它属于一类被称为二元选择模型 (Binary Choice Model) 的模型，专门用于处理因变量 (Dependent Variable) 是一个二元变量（或称虚拟变量）的情况，即其取值只

浏览 60 更新 2025-10-26

Probit模型 (Probit Model)

Probit模型 (Probit Model) 是一种广泛应用于统计学、计量经济学以及其他社会科学领域的回归分析模型。它属于一类被称为 二元选择模型 (Binary Choice Model) 的模型，专门用于处理因变量 (Dependent Variable) 是一个二元变量（或称虚拟变量）的情况，即其取值只能是0或1。

例如，在经济学研究中，我们可能想分析以下问题：一个消费者是否决定购买一辆汽车（是=1，否=0）；一个家庭是否拖欠抵押贷款（是=1，否=0）；一个人是否加入劳动力市场（是=1，否=0）。在这些情况下，使用传统的线性回归模型（如普通最小二乘法）是不合适的，因为它可能预测出小于0或大于1的概率，这在逻辑上是矛盾的。Probit模型通过引入一个非线性的概率结构，确保预测值始终在 $[0, 1]$ 区间内，从而解决了这个问题。

理论基础：潜变量框架 (Latent Variable Framework)

理解Probit模型的核心在于 潜变量 (Latent Variable) 的概念。潜变量是一个理论上存在但无法被直接观测到的连续变量。我们假设这个潜变量 $y_i^*$ 决定了我们最终能观测到的二元结果 $y_i$ 。其基本逻辑是：当这个潜变量超过某个阈值时，我们观测到的结果就为1；否则，结果为0。

数学上，我们可以这样设定潜变量模型：

y_i^* = \mathbf{x}'_i\beta + \varepsilon_i

其中 $y_i^*$ 是第 $i$ 个观测个体的潜变量（例如，购买汽车的"净效用"或"倾向性"）； $\mathbf{x}_i$ 是一个包含所有自变量 (Independent Variables) 的向量，例如个体的收入、年龄、家庭规模等； $\beta$ 是待估计的参数向量，反映了各自变量对潜变量的影响； $\varepsilon_i$ 是随机扰动项，代表了所有未被模型包含的、影响 $y_i^*$ 的因素。

Probit模型的关键假设是，这个扰动项 $\varepsilon_i$ 服从 标准正态分布 (Standard Normal Distribution)，即 $\varepsilon_i \sim N(0, 1)$ 。这意味着其期望为0，方差为1。

接下来，我们将潜变量 $y_i^*$ 与可观测的二元变量 $y_i$ 联系起来。为了简化，我们将决策阈值设为0：

y_i = \begin{cases} 1 & \text{if } y_i^* > 0 \\ 0 & \text{if } y_i^* \le 0 \end{cases}

这个设定意味着，当购买汽车的净效用 $y_i^*$ 大于0时，我们就会观察到购买行为 ( $y_i=1$ )；反之则不购买 ( $y_i=0$ )。

Probit概率的推导

基于以上设定，我们可以推导出在给定自变量 $\mathbf{x}_i$ 的条件下， $y_i=1$ 的条件概率。

P(y_i = 1 | \mathbf{x}_i) = P(y_i^* > 0 | \mathbf{x}_i)

将潜变量的表达式代入，得到：

P(y_i = 1 | \mathbf{x}_i) = P(\mathbf{x}'_i\beta + \varepsilon_i > 0 | \mathbf{x}_i)

移项后：

P(y_i = 1 | \mathbf{x}_i) = P(\varepsilon_i > -\mathbf{x}'_i\beta | \mathbf{x}_i)

由于正态分布是对称的，即 $P(\varepsilon_i > -z) = P(\varepsilon_i \le z)$ ，因此：

P(y_i = 1 | \mathbf{x}_i) = P(\varepsilon_i \le \mathbf{x}'_i\beta | \mathbf{x}_i)

这个表达式正是标准正态分布的 累积分布函数 (Cumulative Distribution Function, CDF) 的定义。我们通常用大写的希腊字母 $\Phi$ (Phi) 来表示标准正态分布的CDF。因此，Probit模型的核心方程可以写为：

P(y_i = 1 | \mathbf{x}_i) = \Phi(\mathbf{x}'_i\beta)

由于概率之和为1，那么 $y_i=0$ 的概率就是：

P(y_i = 0 | \mathbf{x}_i) = 1 - \Phi(\mathbf{x}'_i\beta)

$\Phi(z)$ 的函数图像是一条"S"形曲线，它将线性部分 $\mathbf{x}'_i\beta$ （取值范围是 $(-\infty, +\infty)$ ）映射到了 $(0, 1)$ 区间，完美地满足了概率的定义。

模型估计：最大似然估计

与线性回归模型使用OLS不同，Probit模型的参数 $\beta$ 是通过 最大似然估计 (Maximum Likelihood Estimation, MLE) 的方法来估计的。MLE的基本思想是：找到一组参数 $\hat{\beta}$ ，使得我们观测到的样本数据出现的概率最大化。

对于单个观测值 $i$ ，其似然函数可以统一写成：

L_i(\beta) = [P(y_i=1|\mathbf{x}_i)]^{y_i} [P(y_i=0|\mathbf{x}_i)]^{1-y_i}

代入Probit的概率表达式：

L_i(\beta) = [\Phi(\mathbf{x}'_i\beta)]^{y_i} [1 - \Phi(\mathbf{x}'_i\beta)]^{1-y_i}

对于一个包含 $n$ 个独立观测值的样本，总的似然函数是所有单个似然函数的乘积。为了计算方便，我们通常最大化其对数形式，即 对数似然函数 (Log-Likelihood Function)：

\mathcal{L}(\beta) = \sum_{i=1}^{n} \ln(L_i(\beta)) = \sum_{i=1}^{n} \left\{ y_i \ln[\Phi(\mathbf{x}'_i\beta)] + (1-y_i) \ln[1 - \Phi(\mathbf{x}'_i\beta)] \right\}

由于这个函数是非线性的，没有解析解，因此需要通过计算机使用数值优化算法（如牛顿-拉夫逊法）来找到使 $\mathcal{L}(\beta)$ 达到最大值的 $\hat{\beta}$ 。

系数的解释：边际效应

在Probit模型中，直接解释系数 $\beta_k$ 的大小是困难且容易误导的。 $\beta_k$ 仅仅表示当其他变量不变时， $x_k$ 的增加对潜变量 $y^*$ 的影响。其符号是明确的：如果 $\beta_k > 0$ ，意味着 $x_k$ 增加会提高 $y_i=1$ 的概率；如果 $\beta_k < 0$ ，意味着 $x_k$ 增加会降低 $y_i=1$ 的概率。

要得到 $x_k$ 对最终概率 $P(y_i=1 | \mathbf{x}_i)$ 的影响，我们需要计算 边际效应 (Marginal Effect)，即概率对 $x_k$ 的偏导数：

\frac{\partial P(y_i=1|\mathbf{x}_i)}{\partial x_{ik}} = \frac{\partial \Phi(\mathbf{x}'_i\beta)}{\partial x_{ik}}

根据链式法则，我们得到：

\frac{\partial P(y_i=1|\mathbf{x}_i)}{\partial x_{ik}} = \phi(\mathbf{x}'_i\beta) \cdot \beta_k

这里， $\phi(\cdot)$ 是标准正态分布的 概率密度函数 (Probability Density Function, PDF)。这个公式揭示了Probit模型的一个重要特性： $x_k$ 的边际效应 不是一个常数，它的大小取决于所有自变量 $\mathbf{x}_i$ 的取值。这与线性模型中边际效应等于系数本身（常数）有本质区别。

在实证分析中，通常会报告以下两种边际效应：

均值处的边际效应 (Marginal Effect at the Mean, MEM)：将所有自变量 $\mathbf{x}$ 的值取为其样本均值 $\bar{\mathbf{x}}$ ，然后计算边际效应： $\phi(\bar{\mathbf{x}}'\hat{\beta}) \cdot \hat{\beta}_k$ 。
平均边际效应 (Average Marginal Effect, AME)：为样本中的每一个个体计算其特定的边际效应 $\phi(\mathbf{x}'_i\hat{\beta}) \cdot \hat{\beta}_k$ ，然后计算所有这些边际效应的样本平均值。AME通常被认为是更好的度量方式，因为它反映了样本整体的平均影响。

对于虚拟变量，其边际效应通常通过计算该变量从0变为1时，概率的离散变化量来得到。

与其他模型的比较

Probit vs. Logit模型：Logit模型是另一个常用的二元选择模型。它与Probit模型非常相似，唯一的区别在于它假设潜变量的扰动项 $\varepsilon_i$ 服从逻辑斯谛分布 (Logistic Distribution) 而不是正态分布。逻辑斯谛分布的CDF比正态分布的CDF尾部更"厚"一些。在实践中，两种模型估计出的边际效应通常非常接近，选择哪一个往往取决于学科传统或个人偏好。

Probit vs. 线性概率模型 (Linear Probability Model, LPM)：LPM直接用OLS对 $y_i = \mathbf{x}'_i\beta + \varepsilon_i$ 进行回归。虽然简单，但LPM有三大缺陷：(1) 预测的概率可能超出 $[0, 1]$ 范围；(2) 边际效应恒定不变，不符合现实；(3) 扰动项存在固有的异方差性。Probit模型通过其非线性结构克服了所有这些问题。

Probit模型作为二元选择模型的核心方法之一，在学术研究和实证分析中具有不可替代的地位。其潜变量框架提供了理论上的严谨性，最大似然估计保证了统计上的优良性质，而非线性的概率结构则确保了经济含义上的合理性。与Logit模型互为补充，共同构成了处理离散选择问题的标准工具箱。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。