ARTICLE

复相关系数

复相关系数复相关系数 (Multiple Correlation Coefficient)，记作公式，是衡量一个因变量公式与一组自变量公式之间线性关联强度的综合指标。它是多元线性回归中最重要的汇总统计量之一，用以回答"所有自变量合在一起，能在多大程度上线性地解释因变量的变异"。定义与计算设因变量公式的观测值为公式，其均值为公式

浏览 0 更新 2025-10-26

复相关系数

复相关系数 (Multiple Correlation Coefficient)，记作 $R$ ，是衡量一个因变量 $Y$ 与一组自变量 $X_1, X_2, \ldots, X_k$ 之间线性关联强度的综合指标。它是多元线性回归中最重要的汇总统计量之一，用以回答"所有自变量合在一起，能在多大程度上线性地解释因变量的变异"。

定义与计算

设因变量 $Y$ 的观测值为 $y_1, y_2, \ldots, y_n$ ，其均值为 $\bar{y}$ 。利用自变量 $X_1, \ldots, X_k$ 对 $Y$ 做 OLS 回归，得到拟合值 $\hat{y}_i$ 。则复相关系数 $R$ 定义为拟合值与实际观测值之间的皮尔逊相关系数：

R = \operatorname{Corr}(Y, \hat{Y}) = \frac{\sum_{i=1}^{n}(y_i - \bar{y})(\hat{y}_i - \bar{\hat{y}})}{\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2 \cdot \sum_{i=1}^{n}(\hat{y}_i - \bar{\hat{y}})^2}}

在包含截距项的 OLS 回归中， $\bar{\hat{y}} = \bar{y}$ ，上述公式可简化为：

R = \sqrt{\frac{\sum_{i=1}^{n}(\hat{y}_i - \bar{y})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}} = \sqrt{\frac{\text{SSR}}{\text{SST}}}

其中 SSR 为回归平方和（解释变异），SST 为总平方和（总变异）。 $R$ 的取值范围为 $[0, 1]$ ：当 $R = 1$ 时，所有观测点精确落在回归超平面上；当 $R = 0$ 时，自变量集合对 $Y$ 无任何线性解释力。

与决定系数 $R^2$ 的关系

复相关系数 $R$ 与决定系数 $R^2$ 构成直接的数学对应： $R = \sqrt{R^2}$ 。二者传达的信息等价，但含义不同—— $R^2$ 解释为"因变量总变异中被自变量集合线性解释的比例"，而 $R$ 保持了相关系数的尺度（即 $Y$ 与最优线性组合之间的皮尔逊相关）。在实践报告中， $R^2$ 更常用于模型评估，但 $R$ 保留了与简单相关系数可比的性质。

核心性质

非负性： $0 \leq R \leq 1$ 。与简单相关系数不同， $R$ 不受方向影响——它衡量的是多变量线性组合与 $Y$ 之间的关联强度，始终取正值。
单调性与递增性：向模型中添加任何新的自变量， $R$ 绝不会下降。即使新变量在总体中与 $Y$ 完全不相关，样本中的偶然相关也会导致 $R$ 略微上升。这催生了 调整后的 $R^2$ ( $\bar{R}^2$ ，Adjusted $R^2$ ) 来惩罚无信息变量的加入。
与简单相关系数的关系：设 $r_{YX_j}$ 为 $Y$ 与单个自变量 $X_j$ 之间的简单相关系数，则恒有 $R \geq |r_{YX_j}|$ ——多个自变量的最优线性组合绝不弱于任何一个单独的自变量。
对称性：复相关系数对 $Y$ 和 $X$ 的划分是不对称的——计算 $Y$ 对 $X_1, \ldots, X_k$ 的 $R$ 与计算 $X_1$ 对 $Y, X_2, \ldots, X_k$ 的 $R$ ，结果截然不同。

显著性检验

样本复相关系数 $R$ 是一个统计量，其对应的总体参数 $\rho$ （总体复相关系数）通常未知。要检验总体中 $Y$ 是否确实与自变量集合存在线性关系，使用 F 检验：

F = \frac{R^2 / k}{(1 - R^2) / (n - k - 1)} \sim F(k, n - k - 1)

其中 $k$ 为自变量个数， $n$ 为样本量。原假设 $H_0: \rho = 0$ （即所有自变量的回归系数在总体中均为零）。若 $F$ 值超过临界值，则拒绝原假设，表明复相关系数在统计上显著。

几何解释

从几何角度看，复相关系数 $R$ 等于 $Y$ 向量与由 $X_1, \ldots, X_k$ 张成的超平面之间夹角的余弦值。回归拟合值 $\hat{Y}$ 是 $Y$ 在该超平面上的正交投影； $R$ 衡量了投影的长度（标准化后），而残差向量 $e = Y - \hat{Y}$ 与投影正交。这一几何框架清晰地表明，添加更多自变量意味着向超平面增加维度，投影不会变短，因而 $R$ 不降。

应用与注意事项

复相关系数广泛应用于计量经济学、心理学（量表效度评估）和机器学习（特征集的整体评估）等领域。使用时需注意以下问题：

避免过度依赖 $R$ ：高 $R$ 不代表模型正确——存在遗漏变量偏差、反向因果或伪回归时， $R$ 仍可能接近于 1。模型的经济意义和因果关系需结合理论审视。
样本量的影响：小样本中， $R$ 会被高估。对相同总体， $n$ 很小时即使总体 $\rho = 0$ ，样本 $R$ 也可能显著偏离零。报告的 $R$ 应伴随其置信区间或显著性检验结果。
变量数与过拟合：当 $k$ 相对于 $n$ 较大时， $R$ 会人为膨胀。这是机器学习中过拟合的经典表现——调整后的 $R^2$ 或交叉验证是应对此问题的标准手段。
非线性关系的盲区：复相关系数仅捕捉线性关联。若自变量与因变量之间存在强烈的曲线关系（如 $U$ 形、对数）， $R$ 可能近似于零，误导研究者认为二者无关。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。

复相关系数