ARTICLE

样本协方差

样本协方差 (Sample Covariance) 样本协方差 (Sample Covariance) 是描述性统计和推断统计中衡量两个随机变量之间线性相关方向和强度的基础统计量。它反映的是:当其中一个变量偏离其样本均值时,另一个变量倾向于同向(正值)还是反向(负值)偏离其均值,以及这种联动幅度的平均大小。样本协方差是总体协方差的无偏估计量,也是计算相关系数

浏览 0 更新 2025-11-08

样本协方差 (Sample Covariance)

样本协方差 (Sample Covariance) 是描述性统计推断统计中衡量两个随机变量之间线性相关方向和强度的基础统计量。它反映的是:当其中一个变量偏离其样本均值时,另一个变量倾向于同向(正值)还是反向(负值)偏离其均值,以及这种联动幅度的平均大小。样本协方差是总体协方差的无偏估计量,也是计算相关系数和构建协方差矩阵的基石。

定义与计算公式

设从二元总体中抽取样本容量为 nn 的配对观测值 {(x1,y1),(x2,y2),,(xn,yn)}\{(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)\},样本均值分别为 xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^n x_iyˉ=1ni=1nyi\bar{y} = \frac{1}{n}\sum_{i=1}^n y_i。则样本协方差定义为:

sxy=1n1i=1n(xixˉ)(yiyˉ)s_{xy} = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})

其中分母使用 n1n-1 而非 nn,是为了保证 sxys_{xy} 是总体协方差 σxy=Cov(X,Y)\sigma_{xy} = \operatorname{Cov}(X, Y)无偏估计量(Unbiased Estimator),即 E[sxy]=σxyE[s_{xy}] = \sigma_{xy}。等价的计算公式为:

sxy=1n1(i=1nxiyinxˉyˉ)s_{xy} = \frac{1}{n-1}\left(\sum_{i=1}^n x_i y_i - n\bar{x}\bar{y}\right)

后者在手工计算和编程实现中更为便捷,仅需一次遍历数据即可完成。

性质与解释

样本协方差的符号和绝对值大小包含不同的信息维度。符号指示线性关系的方向:sxy>0s_{xy} > 0 表示两变量呈正相关(同增同减),sxy<0s_{xy} < 0 表示负相关(此增彼减),sxy0s_{xy} \approx 0 提示不存在线性关系(但可能存在非线性关系)。绝对值大小受变量自身的量纲(单位)影响,不能直接用于比较不同变量对之间相关性的强弱——例如身高(cm)与体重(kg)的协方差天然大于身高(m)与体重(kg)的协方差,尽管两组数据描述的是同一组关系。这一局限性催生了相关系数(Pearson相关系数)rxy=sxy/(sxsy)r_{xy} = s_{xy} / (s_x s_y),后者将协方差除以各自样本标准差的乘积,消去了量纲影响并将取值范围限制在 [1,1][-1, 1] 区间内。

样本协方差具有对称性sxy=syxs_{xy} = s_{yx}。它还与样本方差密切相关:当 X=YX = Y 时,sxx=sx2s_{xx} = s_x^2,即变量自身的协方差等于其样本方差。同时样本协方差满足双线性性质sax+b,cy+d=acsxys_{ax+b, cy+d} = ac \cdot s_{xy}(其中 a,ca, c 为常数)。

在计量经济学与金融中的应用

计量经济学中,样本协方差是推导OLS估计量性质的核心工具。OLS斜率估计量 β^1=sxy/sx2\hat{\beta}_1 = s_{xy} / s_x^2 正是样本协方差与自变量样本方差之比。在投资组合理论中,协方差矩阵刻画了多个资产收益率之间的联动结构,是计算组合方差有效前沿的输入变量。Markowitz均值-方差优化中,组合风险由各项资产的方差(对角线)与两两协方差(非对角线)共同决定。当资产数量为 kk 时,需估计 k(k+1)/2k(k+1)/2 个独立的方差与协方差参数。

资本资产定价模型(CAPM)中,单个资产与市场组合的协方差 Cov(Ri,Rm)\operatorname{Cov}(R_i, R_m) 除以市场方差 Var(Rm)\operatorname{Var}(R_m) 定义了资产的贝塔系数 βi\beta_i,衡量其系统性风险。在多元统计分析中,样本协方差矩阵 S\mathbf{S}主成分分析(PCA)、线性判别分析(LDA)和因子分析的起点,其特征值特征向量揭示了数据方差的主要方向。

与总体协方差的关系

样本协方差使用 n1n-1 分母而非 nn,确保了无偏性,这是Bessel校正在多变量情形下的推广。若使用分母 nn(即最大似然估计下的协方差),得到的是一致但有偏的估计量,其偏差在大样本下渐消。在统计软件(R、Python的NumPy)中,n1n-1 的惯例被广泛采用以保持与一维无偏方差估计的一致性。在大样本中 n1nn-1 \approx n,两种定义的差异可忽略。样本协方差是统计学中最基础而又最频繁使用的二元关联度量,为理解和量化变量之间的线性依存关系提供了第一手的数字描述。