ARTICLE

过原点的线性回归

过原点的线性回归 (Regression Through the Origin) 过原点的线性回归 (Regression Through the Origin, RTO),也称为无截距模型 (no-intercept model),是\%线性回归分析中的一种特殊形式。与包含\%截距项的标准线性回归模型不同,过原点的线性回归模型强制规定回归直线必须通过坐标系

浏览 0

过原点的线性回归 (Regression Through the Origin)

过原点的线性回归 (Regression Through the Origin, RTO),也称为无截距模型 (no-intercept model),是\%{线性回归}分析中的一种特殊形式。与包含\%{截距}项的标准线性回归模型不同,过原点的线性回归模型强制规定回归直线必须通过坐标系的原点 (0,0) (0,0) 。这一约束意味着当所有\%{自变量}的取值为零时,\%{因变量}的\%{期望值}也必须为零,这往往源于坚实的\%{经济理论}或物理定律。在\%{计量经济学}实践中,这一模型的适用场景虽然有限,但在特定理论框架下具有不可替代的地位。

模型设定与基本假设

标准的\%{简单线性回归模型}为 Yi=β0+β1Xi+ϵi Y_i = \beta_0 + \beta_1 X_i + \epsilon_i ,其中 β0 \beta_0 是截距项,β1 \beta_1 是\%{斜率},ϵi \epsilon_i 是\%{随机误差项}。而过原点的线性回归模型的形式为 Yi=β1Xi+ϵi Y_i = \beta_1 X_i + \epsilon_i ,显式设定了 β0=0 \beta_0 = 0 。模型的基本假设与标准线性回归类似,通常要求\%{误差项} ϵi \epsilon_i 满足零均值条件 E[ϵiXi]=0 E[\epsilon_i | X_i] = 0 、\%{同方差性} (Homoscedasticity) 即 Var(ϵiXi)=σ2 \text{Var}(\epsilon_i | X_i) = \sigma^2 和无\%{自相关} (Autocorrelation) 即 Cov(ϵi,ϵj)=0 \text{Cov}(\epsilon_i, \epsilon_j) = 0 对于 ij i \neq j 。此外,还要求\%{解释变量} Xi X_i 与误差项不相关,以保证\%{一致性}。这些假设是保证OLS估计量具有良好统计性质的基础。

参数估计:普通最小二乘法 (OLS)

使用\%{普通最小二乘法} (OLS) 估计参数 β1 \beta_1 ,目标是最小化\%{残差平方和} (Sum of Squared Residuals, SSR):

S(β1)=i=1n(Yiβ1Xi)2S(\beta_1) = \sum_{i=1}^{n} (Y_i - \beta_1 X_i)^2

β1 \beta_1 求\%{一阶导数} (First-Order Condition) 并令其为零,可解得:

β^1=i=1nXiYii=1nXi2\hat{\beta}_1 = \frac{\sum_{i=1}^{n} X_i Y_i}{\sum_{i=1}^{n} X_i^2}

这一估计量的推导过程与标准模型相似,但结果有显著差异。标准线性回归的斜率估计量为 β^1=(XiXˉ)(YiYˉ)(XiXˉ)2 \hat{\beta}_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} ,使用离均差的交叉乘积。而RTO模型使用原始的平方和与交叉乘积和,这直接源于模型不含截距项的事实。可以证明,β^1 \hat{\beta}_1 β1 \beta_1 的\%{无偏估计量} (Unbiased Estimator),即 E[β^1]=β1 E[\hat{\beta}_1] = \beta_1 ,其\%{方差}为 Var(β^1)=σ2Xi2 \text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum X_i^2} ,其中 σ2=Var(ϵi) \sigma^2 = \text{Var}(\epsilon_i) 。误差项方差 σ2 \sigma^2 的无偏估计量为 σ^2=(Yiβ^1Xi)2n1 \hat{\sigma}^2 = \frac{\sum (Y_i - \hat{\beta}_1 X_i)^2}{n-1} ,注意分母为 n1 n-1 而非标准模型中的 n2 n-2 ,因为此处只估计了一个参数。这一差异在实际应用中会影响\%{置信区间}的宽度和\%{假设检验}的结果。

特殊性质与注意事项

使用RTO模型需要特别谨慎,因为其统计性质与标准模型有本质区别:

  1. 残差和不为零ei=(Yiβ^1Xi) \sum e_i = \sum (Y_i - \hat{\beta}_1 X_i) 通常不等于零,这与标准回归中残差和恒为零的特点截然不同。这是由\%{正规方程组} (Normal Equations) 的结构差异所导致的——不含截距时,只有一条正规方程 Xi(Yiβ^1Xi)=0 \sum X_i(Y_i - \hat{\beta}_1 X_i) = 0 ,而非两条。
  1. 不通过样本均值点:RTO模型强制回归线通过原点,因此一般不通过 (Xˉ,Yˉ) (\bar{X}, \bar{Y}) ,这与包含截距的回归模型不同。这意味着模型对靠近原点的数据点赋予更大权重。
  1. \%{判定系数} R2 R^2 的问题:标准 R2=1SSR/SST R^2 = 1 - SSR/SST 的分解依赖于残差和为零以及模型包含截距项,而在RTO模型中此分解不再成立,R2 R^2 甚至可能为负值。因此,通常应报告无中心的 R2 R^2 (uncentered R2 R^2 ):
Ruc2=1(Yiβ^1Xi)2Yi2R^2_{uc} = 1 - \frac{\sum (Y_i - \hat{\beta}_1 X_i)^2}{\sum Y_i^2}

需要特别强调的是,绝对不能将RTO模型的 R2 R^2 与标准回归模型的 R2 R^2 直接比较,因为两者的定义基础完全不同。无中心 R2 R^2 的取值范围为 (,1] (-\infty, 1] ,其解释力远不如标准 R2 R^2 直观。

  1. \%{F检验}与\%{t检验}的调整:RTO模型中的\%{假设检验}需基于修正后的\%{方差估计},\%{统计软件}(如R、Stata、Python的statsmodels)通常提供专门选项来处理无截距模型。在R语言中,使用 \texttt{lm(y \~ x - 1)} 或 \texttt{lm(y \~ 0 + x)} 来拟合无截距模型。

何时使用RTO模型?

使用RTO模型的唯一正当理由是在强理论支撑下,即自然规律或经济理论明确要求零点条件成立。经典案例包括:

  • \%{欧姆定律} (Ohm's Law):V=IR V = IR ,电压与电流的关系必然通过原点,因为零电压对应零电流。
  • \%{资本资产定价模型} (CAPM):\%{超额收益} (Excess Returns) 之间的关系,当市场超额收益为零时,单个资产\%{期望}超额收益也为零。
  • \%{财务比率分析}:某些财务\%{杠杆} (Leverage) 指标与风险的关系在理论上通过原点。
  • 物理中的胡克定律 (Hooke's Law)、理想气体状态方程以及\%{生产函数}中零投入对应零产出的情形。

何时不应使用?

缺乏理论依据时不应盲目使用RTO模型。典型的反例包括回归体重对身高、消费对收入等社会\%{科学}关系——这些数据范围通常远离原点,强制过原点会严重扭曲变量间的真实关系,产生严重的估计\%{偏误} (Bias)。在\%{时间序列分析}中,若变量具有非零均值,强制过原点也会导致错误推断。

当不确定是否应移除截距项时,始终包含截距项是更稳健的做法。即使截距项在\%{统计上不显著}(即无法拒绝 β0=0 \beta_0 = 0 的\%{原假设}),多数计量经济学家仍倾向保留截距项,原因在于:保留截距项不会导致\%{模型设定误差},而错误地移除截距项则会引入系统性偏误。此外,\%{信息准则}如\%{AIC}和\%{BIC}也可作为模型选择的参考依据。

与标准模型的关键对比

| 特征 | 标准线性回归 | 过原点的线性回归 | |:---|:---|:---| | 模型形式 | Yi=β0+β1Xi+ϵi Y_i = \beta_0 + \beta_1 X_i + \epsilon_i | Yi=β1Xi+ϵi Y_i = \beta_1 X_i + \epsilon_i | | 截距 | 从数据中估计 | 强制为零 | | 斜率估计量 | (XiXˉ)(YiYˉ)(XiXˉ)2 \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} | XiYiXi2 \frac{\sum X_i Y_i}{\sum X_i^2} | | 残差和 | 恒等于0 | 通常不为0 | | 通过点 | (Xˉ,Yˉ) (\bar{X}, \bar{Y}) | (0,0) (0, 0) | | R2 R^2 | [0,1],可比较 | 不可靠,不可比较 | | 误差方差估计分母 | n2 n-2 | n1 n-1 | | \%{Gauss-Markov定理} | 满足 | 需重新验证 | | 适用性 | 普遍适用 | 仅强理论支持时适用 |

过原点的线性回归是一个高度约束的模型,实际应用范围狭窄。在多数计量经济学建模任务中,包含截距项的标准线性回归是更安全、更稳健的选择。研究者应在坚实的理论基础指导下,谨慎使用这一特殊模型,并始终对模型设定进行\%{诊断检验} (Diagnostic Tests) 以确保结论的可靠性。

verified: true