其中 SSR 为回归平方和(解释变异),SST 为总平方和(总变异)。R 的取值范围为 [0,1]:当 R=1 时,所有观测点精确落在回归超平面上;当 R=0 时,自变量集合对 Y 无任何线性解释力。
与决定系数 R2 的关系
复相关系数 R 与 决定系数R2 构成直接的数学对应:R=R2。二者传达的信息等价,但含义不同——R2 解释为"因变量总变异中被自变量集合线性解释的比例",而 R 保持了相关系数的尺度(即 Y 与最优线性组合之间的皮尔逊相关)。在实践报告中,R2 更常用于模型评估,但 R 保留了与简单相关系数可比的性质。
核心性质
非负性:0≤R≤1。与简单相关系数不同,R 不受方向影响——它衡量的是多变量线性组合与 Y 之间的关联强度,始终取正值。
单调性与递增性:向模型中添加任何新的自变量,R 绝不会下降。即使新变量在总体中与 Y 完全不相关,样本中的偶然相关也会导致 R 略微上升。这催生了 调整后的 R2 (Rˉ2,Adjusted R2) 来惩罚无信息变量的加入。
与简单相关系数的关系:设 rYXj 为 Y 与单个自变量 Xj 之间的简单相关系数,则恒有 R≥∣rYXj∣——多个自变量的最优线性组合绝不弱于任何一个单独的自变量。
对称性:复相关系数对 Y 和 X 的划分是不对称的——计算 Y 对 X1,…,Xk 的 R 与计算 X1 对 Y,X2,…,Xk 的 R,结果截然不同。
显著性检验
样本复相关系数 R 是一个统计量,其对应的总体参数 ρ(总体复相关系数)通常未知。要检验总体中 Y 是否确实与自变量集合存在线性关系,使用 F 检验:
F=(1−R2)/(n−k−1)R2/k∼F(k,n−k−1)
其中 k 为自变量个数,n 为样本量。原假设 H0:ρ=0(即所有自变量的回归系数在总体中均为零)。若 F 值超过临界值,则拒绝原假设,表明复相关系数在统计上显著。
几何解释
从几何角度看,复相关系数 R 等于 Y 向量与由 X1,…,Xk 张成的超平面之间夹角的余弦值。回归拟合值 Y^ 是 Y 在该超平面上的正交投影;R 衡量了投影的长度(标准化后),而残差向量 e=Y−Y^ 与投影正交。这一几何框架清晰地表明,添加更多自变量意味着向超平面增加维度,投影不会变短,因而 R 不降。