ARTICLE

复相关系数

复相关系数 复相关系数 (Multiple Correlation Coefficient),记作 R,是衡量一个因变量 Y 与一组自变量 X_1, X_2, , X_k 之间线性关联强度的综合指标。它是 多元线性回归 中最重要的汇总统计量之一,用以回答"所有自变量合在一起,能在多大程度上线性地解释因变量的变异"。 定义与计算 设因变量 Y 的观测值为 y_

浏览 0 更新 2025-10-26

复相关系数

复相关系数 (Multiple Correlation Coefficient),记作 RR,是衡量一个因变量 YY 与一组自变量 X1,X2,,XkX_1, X_2, \ldots, X_k 之间线性关联强度的综合指标。它是 多元线性回归 中最重要的汇总统计量之一,用以回答"所有自变量合在一起,能在多大程度上线性地解释因变量的变异"。

定义与计算

设因变量 YY 的观测值为 y1,y2,,yny_1, y_2, \ldots, y_n,其均值为 yˉ\bar{y}。利用自变量 X1,,XkX_1, \ldots, X_kYYOLS 回归,得到拟合值 y^i\hat{y}_i。则复相关系数 RR 定义为拟合值与实际观测值之间的 皮尔逊相关系数

R=Corr(Y,Y^)=i=1n(yiyˉ)(y^iy^ˉ)i=1n(yiyˉ)2i=1n(y^iy^ˉ)2R = \operatorname{Corr}(Y, \hat{Y}) = \frac{\sum_{i=1}^{n}(y_i - \bar{y})(\hat{y}_i - \bar{\hat{y}})}{\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2 \cdot \sum_{i=1}^{n}(\hat{y}_i - \bar{\hat{y}})^2}}

在包含截距项的 OLS 回归中,y^ˉ=yˉ\bar{\hat{y}} = \bar{y},上述公式可简化为:

R=i=1n(y^iyˉ)2i=1n(yiyˉ)2=SSRSSTR = \sqrt{\frac{\sum_{i=1}^{n}(\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}} = \sqrt{\frac{\text{SSR}}{\text{SST}}}

其中 SSR 为回归平方和(解释变异),SST 为总平方和(总变异)。RR 的取值范围为 [0,1][0, 1]:当 R=1R = 1 时,所有观测点精确落在回归超平面上;当 R=0R = 0 时,自变量集合对 YY 无任何线性解释力。

与决定系数 R2R^2 的关系

复相关系数 RR决定系数 R2R^2 构成直接的数学对应:R=R2R = \sqrt{R^2}。二者传达的信息等价,但含义不同——R2R^2 解释为"因变量总变异中被自变量集合线性解释的比例",而 RR 保持了相关系数的尺度(即 YY 与最优线性组合之间的皮尔逊相关)。在实践报告中,R2R^2 更常用于模型评估,但 RR 保留了与简单相关系数可比的性质。

核心性质

  • 非负性0R10 \leq R \leq 1。与简单相关系数不同,RR 不受方向影响——它衡量的是多变量线性组合与 YY 之间的关联强度,始终取正值。
  • 单调性与递增性:向模型中添加任何新的自变量,RR 绝不会下降。即使新变量在总体中与 YY 完全不相关,样本中的偶然相关也会导致 RR 略微上升。这催生了 调整后的 R2R^2 (Rˉ2\bar{R}^2,Adjusted R2R^2) 来惩罚无信息变量的加入。
  • 与简单相关系数的关系:设 rYXjr_{YX_j}YY 与单个自变量 XjX_j 之间的简单相关系数,则恒有 RrYXjR \geq |r_{YX_j}|——多个自变量的最优线性组合绝不弱于任何一个单独的自变量。
  • 对称性:复相关系数对 YYXX 的划分是不对称的——计算 YYX1,,XkX_1, \ldots, X_kRR 与计算 X1X_1Y,X2,,XkY, X_2, \ldots, X_kRR,结果截然不同。

显著性检验

样本复相关系数 RR 是一个统计量,其对应的总体参数 ρ\rho(总体复相关系数)通常未知。要检验总体中 YY 是否确实与自变量集合存在线性关系,使用 F 检验

F=R2/k(1R2)/(nk1)F(k,nk1)F = \frac{R^2 / k}{(1 - R^2) / (n - k - 1)} \sim F(k, n - k - 1)

其中 kk 为自变量个数,nn 为样本量。原假设 H0:ρ=0H_0: \rho = 0(即所有自变量的回归系数在总体中均为零)。若 FF 值超过临界值,则拒绝原假设,表明复相关系数在统计上显著。

几何解释

从几何角度看,复相关系数 RR 等于 YY 向量与由 X1,,XkX_1, \ldots, X_k 张成的超平面之间夹角的余弦值。回归拟合值 Y^\hat{Y}YY 在该超平面上的正交投影;RR 衡量了投影的长度(标准化后),而残差向量 e=YY^e = Y - \hat{Y} 与投影正交。这一几何框架清晰地表明,添加更多自变量意味着向超平面增加维度,投影不会变短,因而 RR 不降。

应用与注意事项

复相关系数广泛应用于 计量经济学心理学(量表效度评估)和 机器学习(特征集的整体评估)等领域。使用时需注意以下问题:

  • 避免过度依赖 RR:高 RR 不代表模型正确——存在遗漏变量偏差、反向因果或伪回归时,RR 仍可能接近于 1。模型的经济意义和因果关系需结合理论审视。
  • 样本量的影响:小样本中,RR 会被高估。对相同总体,nn 很小时即使总体 ρ=0\rho = 0,样本 RR 也可能显著偏离零。报告的 RR 应伴随其置信区间或显著性检验结果。
  • 变量数与过拟合:当 kk 相对于 nn 较大时,RR 会人为膨胀。这是机器学习中 过拟合 的经典表现——调整后的 R2R^2 或交叉验证是应对此问题的标准手段。
  • 非线性关系的盲区:复相关系数仅捕捉线性关联。若自变量与因变量之间存在强烈的曲线关系(如 UU 形、对数),RR 可能近似于零,误导研究者认为二者无关。