Probit模型 (Probit Model)
Probit模型 (Probit Model) 是一种广泛应用于统计学、计量经济学以及其他社会科学领域的回归分析模型。它属于一类被称为 二元选择模型 (Binary Choice Model) 的模型,专门用于处理因变量 (Dependent Variable) 是一个二元变量(或称虚拟变量)的情况,即其取值只能是0或1。
例如,在经济学研究中,我们可能想分析以下问题:一个消费者是否决定购买一辆汽车(是=1,否=0);一个家庭是否拖欠抵押贷款(是=1,否=0);一个人是否加入劳动力市场(是=1,否=0)。在这些情况下,使用传统的线性回归模型(如普通最小二乘法)是不合适的,因为它可能预测出小于0或大于1的概率,这在逻辑上是矛盾的。Probit模型通过引入一个非线性的概率结构,确保预测值始终在 [0,1] 区间内,从而解决了这个问题。
理论基础:潜变量框架 (Latent Variable Framework)
理解Probit模型的核心在于 潜变量 (Latent Variable) 的概念。潜变量是一个理论上存在但无法被直接观测到的连续变量。我们假设这个潜变量 yi∗ 决定了我们最终能观测到的二元结果 yi。其基本逻辑是:当这个潜变量超过某个阈值时,我们观测到的结果就为1;否则,结果为0。
数学上,我们可以这样设定潜变量模型:
yi∗=xi′β+εi
其中 yi∗ 是第 i 个观测个体的潜变量(例如,购买汽车的"净效用"或"倾向性");xi 是一个包含所有自变量 (Independent Variables) 的向量,例如个体的收入、年龄、家庭规模等;β 是待估计的参数向量,反映了各自变量对潜变量的影响;εi 是随机扰动项,代表了所有未被模型包含的、影响 yi∗ 的因素。
Probit模型的关键假设是,这个扰动项 εi 服从 标准正态分布 (Standard Normal Distribution),即 εi∼N(0,1)。这意味着其期望为0,方差为1。
接下来,我们将潜变量 yi∗ 与可观测的二元变量 yi 联系起来。为了简化,我们将决策阈值设为0:
yi={10if yi∗>0if yi∗≤0
这个设定意味着,当购买汽车的净效用 yi∗ 大于0时,我们就会观察到购买行为 (yi=1);反之则不购买 (yi=0)。
Probit概率的推导
基于以上设定,我们可以推导出在给定自变量 xi 的条件下,yi=1 的条件概率。
P(yi=1∣xi)=P(yi∗>0∣xi)
将潜变量的表达式代入,得到:
P(yi=1∣xi)=P(xi′β+εi>0∣xi)
移项后:
P(yi=1∣xi)=P(εi>−xi′β∣xi)
由于正态分布是对称的,即 P(εi>−z)=P(εi≤z),因此:
P(yi=1∣xi)=P(εi≤xi′β∣xi)
这个表达式正是标准正态分布的 累积分布函数 (Cumulative Distribution Function, CDF) 的定义。我们通常用大写的希腊字母 Φ (Phi) 来表示标准正态分布的CDF。因此,Probit模型的核心方程可以写为:
P(yi=1∣xi)=Φ(xi′β)
由于概率之和为1,那么 yi=0 的概率就是:
P(yi=0∣xi)=1−Φ(xi′β)
Φ(z) 的函数图像是一条"S"形曲线,它将线性部分 xi′β(取值范围是 (−∞,+∞))映射到了 (0,1) 区间,完美地满足了概率的定义。
模型估计:最大似然估计
与线性回归模型使用OLS不同,Probit模型的参数 β 是通过 最大似然估计 (Maximum Likelihood Estimation, MLE) 的方法来估计的。MLE的基本思想是:找到一组参数 β^,使得我们观测到的样本数据出现的概率最大化。
对于单个观测值 i,其似然函数可以统一写成:
Li(β)=[P(yi=1∣xi)]yi[P(yi=0∣xi)]1−yi
代入Probit的概率表达式:
Li(β)=[Φ(xi′β)]yi[1−Φ(xi′β)]1−yi
对于一个包含 n 个独立观测值的样本,总的似然函数是所有单个似然函数的乘积。为了计算方便,我们通常最大化其对数形式,即 对数似然函数 (Log-Likelihood Function):
L(β)=i=1∑nln(Li(β))=i=1∑n{yiln[Φ(xi′β)]+(1−yi)ln[1−Φ(xi′β)]}
由于这个函数是非线性的,没有解析解,因此需要通过计算机使用数值优化算法(如牛顿-拉夫逊法)来找到使 L(β) 达到最大值的 β^。
系数的解释:边际效应
在Probit模型中,直接解释系数 βk 的大小是困难且容易误导的。βk 仅仅表示当其他变量不变时,xk 的增加对潜变量 y∗ 的影响。其符号是明确的:如果 βk>0,意味着 xk 增加会提高 yi=1 的概率;如果 βk<0,意味着 xk 增加会降低 yi=1 的概率。
要得到 xk 对最终概率 P(yi=1∣xi) 的影响,我们需要计算 边际效应 (Marginal Effect),即概率对 xk 的偏导数:
∂xik∂P(yi=1∣xi)=∂xik∂Φ(xi′β)
根据链式法则,我们得到:
∂xik∂P(yi=1∣xi)=ϕ(xi′β)⋅βk
这里,ϕ(⋅) 是标准正态分布的 概率密度函数 (Probability Density Function, PDF)。这个公式揭示了Probit模型的一个重要特性:xk 的边际效应 不是一个常数,它的大小取决于所有自变量 xi 的取值。这与线性模型中边际效应等于系数本身(常数)有本质区别。
在实证分析中,通常会报告以下两种边际效应:
- 均值处的边际效应 (Marginal Effect at the Mean, MEM):将所有自变量 x 的值取为其样本均值 xˉ,然后计算边际效应:ϕ(xˉ′β^)⋅β^k。
- 平均边际效应 (Average Marginal Effect, AME):为样本中的每一个个体计算其特定的边际效应 ϕ(xi′β^)⋅β^k,然后计算所有这些边际效应的样本平均值。AME通常被认为是更好的度量方式,因为它反映了样本整体的平均影响。
对于虚拟变量,其边际效应通常通过计算该变量从0变为1时,概率的离散变化量来得到。
与其他模型的比较
Probit vs. Logit模型:Logit模型是另一个常用的二元选择模型。它与Probit模型非常相似,唯一的区别在于它假设潜变量的扰动项 εi 服从逻辑斯谛分布 (Logistic Distribution) 而不是正态分布。逻辑斯谛分布的CDF比正态分布的CDF尾部更"厚"一些。在实践中,两种模型估计出的边际效应通常非常接近,选择哪一个往往取决于学科传统或个人偏好。
Probit vs. 线性概率模型 (Linear Probability Model, LPM):LPM直接用OLS对 yi=xi′β+εi 进行回归。虽然简单,但LPM有三大缺陷:(1) 预测的概率可能超出 [0,1] 范围;(2) 边际效应恒定不变,不符合现实;(3) 扰动项存在固有的异方差性。Probit模型通过其非线性结构克服了所有这些问题。
Probit模型作为二元选择模型的核心方法之一,在学术研究和实证分析中具有不可替代的地位。其潜变量框架提供了理论上的严谨性,最大似然估计保证了统计上的优良性质,而非线性的概率结构则确保了经济含义上的合理性。与Logit模型互为补充,共同构成了处理离散选择问题的标准工具箱。