ARTICLE

过原点回归

过原点回归(Regression Through the Origin)是一种特殊的线性回归模型,其核心特征是在回归方程中强制截距项为零,即模型形式为 Y_i = X_i + _i 。与包含截距项的普通最小二乘回归不同,过原点回归要求回归直线必须经过坐标原点 (0,0) ,这意味着当自变量取值为零时,因变量的期望值也为零。这种约束往往来源于理论假设或实际背景

浏览 0 更新 2025-10-26

过原点回归(Regression Through the Origin)是一种特殊的线性回归模型,其核心特征是在回归方程中强制截距项为零,即模型形式为 Yi=βXi+εi Y_i = \beta X_i + \varepsilon_i 。与包含截距项的普通最小二乘回归不同,过原点回归要求回归直线必须经过坐标原点 (0,0) (0,0) ,这意味着当自变量取值为零时,因变量的期望值也为零。这种约束往往来源于理论假设或实际背景——例如在金融学中,当市场收益率为零时,证券的超额收益率理论上也应为零;在计量经济学中,某些经济关系天然满足齐次性条件;在物理学中,许多定律本身即为过原点的线性关系,如胡克定律中弹簧伸长量与弹力的关系。

过原点回归的参数估计仍采用最小二乘法,但其估计量的表达式与含截距项的情形有显著差异。对于模型 Yi=βXi+εi Y_i = \beta X_i + \varepsilon_i ,参数 β \beta 的最小二乘估计量为 β^=i=1nXiYii=1nXi2 \hat{\beta} = \frac{\sum_{i=1}^{n} X_i Y_i}{\sum_{i=1}^{n} X_i^2} 。这一估计量的推导过程与普通回归类似,均以残差平方和最小化为目标,但由于不含截距项,求导后得到的正规方程中并不涉及均值修正项。需要注意的是,过原点回归中残差的性质发生了变化:残差之和不再必然为零,样本均值点 (Xˉ,Yˉ) (\bar{X}, \bar{Y}) 也不一定落在回归直线上,这与含截距回归的基本性质形成鲜明对比。因此,在模型诊断中,传统的 R2 R^2 统计量不再适用于过原点回归,因为此时总平方和无法分解为回归平方和与残差平方和的标准形式。Stata、R 等统计软件通常会报告"未中心化的 R2 R^2 "(uncentered R2 R^2 ),其计算公式为 Ruc2=1i=1nei2i=1nYi2 R^2_{uc} = 1 - \frac{\sum_{i=1}^{n} e_i^2}{\sum_{i=1}^{n} Y_i^2} ,这一指标衡量的是模型相对于原点而非相对于样本均值的拟合优度。

在实际应用中,选择过原点回归还是含截距回归需要格外谨慎。经济学家普遍遵循弗里施-沃-洛弗尔定理(Frisch–Waugh–Lovell Theorem)的推论:除非有明确的理论依据证明确实不存在截距项,否则应优先考虑包含截距项的模型。不加思考地强制截距为零可能导致严重的设定偏误——如果真实模型包含非零截距,而过原点回归将其忽略,则斜率估计量将产生偏差,且偏差的大小与自变量的均值有关。具体而言,当真实模型为 Yi=α+βXi+εi Y_i = \alpha + \beta X_i + \varepsilon_i 但误用无截距模型时,估计量的期望值为 E(β^)=β+αXiXi2 E(\hat{\beta}) = \beta + \alpha \cdot \frac{\sum X_i}{\sum X_i^2} ,式中第二项即为偏误来源。由此可知,只有当截距 α \alpha 确实为零,或者自变量均值恰好为零时,过原点回归才能得到无偏估计。

在假设检验方面,过原点回归的推断程序与普通回归大体一致。β^ \hat{\beta} 的方差估计式为 Var(β^)=σ2i=1nXi2 \mathrm{Var}(\hat{\beta}) = \frac{\sigma^2}{\sum_{i=1}^{n} X_i^2} ,其中 σ2 \sigma^2 σ^2=i=1nei2n1 \hat{\sigma}^2 = \frac{\sum_{i=1}^{n} e_i^2}{n-1} 估计。需要注意的是,分母为 n1 n-1 而非 n2 n-2 ,这是因为过原点回归仅需估计一个参数而非两个。由此构造的 t t 统计量可用于检验 β \beta 是否显著异于零,亦可构造相应的置信区间。此外,检验截距是否为零的常用策略是:先拟合含截距的模型,然后检验截距项的显著性。若截距项在统计上不显著,则可以考虑采用过原点回归以提高估计效率——但这一"先检验后选择"的策略存在预检验偏误(pre-test bias),实际操作中需警惕过度拟合的风险。

在高斯-马尔可夫定理的适用性方面,过原点回归与普通回归存在重要差异。对于模型 Yi=βXi+εi Y_i = \beta X_i + \varepsilon_i ,若误差项满足零均值、同方差且无自相关的经典假设,则 β^ \hat{\beta} 仍为线性无偏估计量中方差最小者。然而,零均值假设在此处的含义有所不同:它要求误差项的条件期望 E(εiXi)=0 E(\varepsilon_i | X_i) = 0 ,而非通常的 E(εi)=0 E(\varepsilon_i) = 0 。若真实模型包含截距但被强行省略,误差项的零均值假设将被破坏,高斯-马尔可夫定理不再适用,这也是过原点回归在实际应用中面临的主要风险之一。从模型比较的角度看,研究者可以通过 F F 检验来判定是否应当包含截距项。具体而言,在含截距的回归模型中检验 H0:α=0 H_0: \alpha = 0 ,检验统计量为 F=(RSSrRSSu)/1RSSu/(n2) F = \frac{(RSS_r - RSS_u)/1}{RSS_u/(n-2)} ,其中 RSSr RSS_r 为过原点回归的残差平方和,RSSu RSS_u 为含截距回归的残差平方和。若 F F 统计量显著,则表明截距项不可或缺。

过原点回归的一个典型应用场景是资本资产定价模型(CAPM)的实证检验。在CAPM框架下,证券的超额收益率与市场组合的超额收益率之间应满足 RiRf=βi(RmRf)+εi R_i - R_f = \beta_i(R_m - R_f) + \varepsilon_i ,当市场超额收益率为零时,证券的超额收益率也应为零,因此模型中不应包含截距项。若实证分析中截距项显著异于零,则表明该证券存在统计上显著的异常收益(即詹森阿尔法),这通常被视作对CAPM模型的偏离证据。另一个常见应用是套利定价理论(APT)中,当所有因子载荷为零时,期望收益率应等于无风险利率,同样支持无截距设定。

综上所述,过原点回归是一种强有力的计量工具,但其应用必须以扎实的理论基础为前提。使用者应充分理解其与含截距回归在估计量性质、拟合优度度量及残差行为上的差异,避免因盲目强制过原点而导致模型设定偏误。正确的方法是在理论指导与经济直觉的双重支撑下,审慎选择适当的模型形式,并在必要时通过规范检验加以验证。此外,过原点回归的预测区间构造也值得关注。由于回归直线始终经过原点,当自变量趋近于零时,预测值的方差趋近于零,预测区间也随之收窄。但当自变量远离原点时,预测区间的宽度由 Var(Y^0)=σ^2X02Xi2 \mathrm{Var}(\hat{Y}_0) = \hat{\sigma}^2 \cdot \frac{X_0^2}{\sum X_i^2} 决定,其变化趋势与含截距模型有所不同。应用者在进行预测时需充分认识到这一特性,避免因忽略截距项而导致预测偏差。