ARTICLE
过原点的线性回归
过原点的线性回归 (Regression Through the Origin) 过原点的线性回归 (Regression Through the Origin, RTO),也称为无截距模型 (no-intercept model),是\%线性回归分析中的一种特殊形式。与包含\%截距项的标准线性回归模型不同,过原点的线性回归模型强制规定回归直线必须通过坐标系
过原点的线性回归 (Regression Through the Origin)
过原点的线性回归 (Regression Through the Origin, RTO),也称为无截距模型 (no-intercept model),是\%{线性回归}分析中的一种特殊形式。与包含\%{截距}项的标准线性回归模型不同,过原点的线性回归模型强制规定回归直线必须通过坐标系的原点 。这一约束意味着当所有\%{自变量}的取值为零时,\%{因变量}的\%{期望值}也必须为零,这往往源于坚实的\%{经济理论}或物理定律。在\%{计量经济学}实践中,这一模型的适用场景虽然有限,但在特定理论框架下具有不可替代的地位。
模型设定与基本假设
标准的\%{简单线性回归模型}为 ,其中 是截距项, 是\%{斜率}, 是\%{随机误差项}。而过原点的线性回归模型的形式为 ,显式设定了 。模型的基本假设与标准线性回归类似,通常要求\%{误差项} 满足零均值条件 、\%{同方差性} (Homoscedasticity) 即 和无\%{自相关} (Autocorrelation) 即 对于 。此外,还要求\%{解释变量} 与误差项不相关,以保证\%{一致性}。这些假设是保证OLS估计量具有良好统计性质的基础。
参数估计:普通最小二乘法 (OLS)
使用\%{普通最小二乘法} (OLS) 估计参数 ,目标是最小化\%{残差平方和} (Sum of Squared Residuals, SSR):
对 求\%{一阶导数} (First-Order Condition) 并令其为零,可解得:
这一估计量的推导过程与标准模型相似,但结果有显著差异。标准线性回归的斜率估计量为 ,使用离均差的交叉乘积。而RTO模型使用原始的平方和与交叉乘积和,这直接源于模型不含截距项的事实。可以证明, 是 的\%{无偏估计量} (Unbiased Estimator),即 ,其\%{方差}为 ,其中 。误差项方差 的无偏估计量为 ,注意分母为 而非标准模型中的 ,因为此处只估计了一个参数。这一差异在实际应用中会影响\%{置信区间}的宽度和\%{假设检验}的结果。
特殊性质与注意事项
使用RTO模型需要特别谨慎,因为其统计性质与标准模型有本质区别:
- 残差和不为零: 通常不等于零,这与标准回归中残差和恒为零的特点截然不同。这是由\%{正规方程组} (Normal Equations) 的结构差异所导致的——不含截距时,只有一条正规方程 ,而非两条。
- 不通过样本均值点:RTO模型强制回归线通过原点,因此一般不通过 ,这与包含截距的回归模型不同。这意味着模型对靠近原点的数据点赋予更大权重。
- \%{判定系数} 的问题:标准 的分解依赖于残差和为零以及模型包含截距项,而在RTO模型中此分解不再成立, 甚至可能为负值。因此,通常应报告无中心的 (uncentered ):
需要特别强调的是,绝对不能将RTO模型的 与标准回归模型的 直接比较,因为两者的定义基础完全不同。无中心 的取值范围为 ,其解释力远不如标准 直观。
- \%{F检验}与\%{t检验}的调整:RTO模型中的\%{假设检验}需基于修正后的\%{方差估计},\%{统计软件}(如R、Stata、Python的statsmodels)通常提供专门选项来处理无截距模型。在R语言中,使用 \texttt{lm(y \~ x - 1)} 或 \texttt{lm(y \~ 0 + x)} 来拟合无截距模型。
何时使用RTO模型?
使用RTO模型的唯一正当理由是在强理论支撑下,即自然规律或经济理论明确要求零点条件成立。经典案例包括:
- \%{欧姆定律} (Ohm's Law):,电压与电流的关系必然通过原点,因为零电压对应零电流。
- \%{资本资产定价模型} (CAPM):\%{超额收益} (Excess Returns) 之间的关系,当市场超额收益为零时,单个资产\%{期望}超额收益也为零。
- \%{财务比率分析}:某些财务\%{杠杆} (Leverage) 指标与风险的关系在理论上通过原点。
- 物理中的胡克定律 (Hooke's Law)、理想气体状态方程以及\%{生产函数}中零投入对应零产出的情形。
何时不应使用?
缺乏理论依据时不应盲目使用RTO模型。典型的反例包括回归体重对身高、消费对收入等社会\%{科学}关系——这些数据范围通常远离原点,强制过原点会严重扭曲变量间的真实关系,产生严重的估计\%{偏误} (Bias)。在\%{时间序列分析}中,若变量具有非零均值,强制过原点也会导致错误推断。
当不确定是否应移除截距项时,始终包含截距项是更稳健的做法。即使截距项在\%{统计上不显著}(即无法拒绝 的\%{原假设}),多数计量经济学家仍倾向保留截距项,原因在于:保留截距项不会导致\%{模型设定误差},而错误地移除截距项则会引入系统性偏误。此外,\%{信息准则}如\%{AIC}和\%{BIC}也可作为模型选择的参考依据。
与标准模型的关键对比
| 特征 | 标准线性回归 | 过原点的线性回归 | |:---|:---|:---| | 模型形式 | | | | 截距 | 从数据中估计 | 强制为零 | | 斜率估计量 | | | | 残差和 | 恒等于0 | 通常不为0 | | 通过点 | | | | | [0,1],可比较 | 不可靠,不可比较 | | 误差方差估计分母 | | | | \%{Gauss-Markov定理} | 满足 | 需重新验证 | | 适用性 | 普遍适用 | 仅强理论支持时适用 |
过原点的线性回归是一个高度约束的模型,实际应用范围狭窄。在多数计量经济学建模任务中,包含截距项的标准线性回归是更安全、更稳健的选择。研究者应在坚实的理论基础指导下,谨慎使用这一特殊模型,并始终对模型设定进行\%{诊断检验} (Diagnostic Tests) 以确保结论的可靠性。
verified: true