均方 (Mean Square, MS)
均方(Mean Square,简称 MS)是统计学和计量经济学中衡量数据变异性的核心指标,定义为平方和(Sum of Squares, SS)除以其相应的自由度(degrees of freedom, df)。其数学表达为:
MS=dfSS=n−1∑i=1n(xi−xˉ)2
当自由度为 n−1 时,均方即为样本方差的无偏估计量 s2。均方在方差分析(ANOVA)、回归分析和假设检验中扮演基础性角色,是构造F检验统计量的关键要素。
均方的数学定义
给定一组观测值 x1,x2,…,xn,总平方和 SS=∑(xi−xˉ)2,均方定义为:
MS=dfSS
自由度 df 通常等于观测值数量减去被估计参数个数。这一除法对平方和进行"平均化",使不同自由度的变异来源可在同一尺度上比较。
均方与方差的关系
总体方差 σ2=N∑(xi−μ)2,而样本方差即均方的特例:
s2=n−1∑(xi−xˉ)2=MS
使用 n−1 而非 n 是因为样本均值消耗了一个自由度,保证了无偏性。
方差分析中的均方
在单因素方差分析中,总变异分解为组间和组内两部分。
组间均方(MSB)度量各组均值与总均值的离散程度:
MSB=k−1∑nj(xˉj−xˉ)2
组内均方(MSW),也称均方误差(MSE),度量各组内观测值与其组均值的离散程度:
MSW=N−k∑∑(xij−xˉj)2
F统计量为两者比值:F=MSB/MSW∼F(k−1,N−k)。当组间变异显著大于组内变异时,F 值较大,拒绝原假设。
回归分析中的均方
在线性回归中,总平方和(SST)分解为回归平方和(SSR)与残差平方和(SSE)。相应的均方为:
MSR=kSSR,MSE=n−k−1SSE
回归均方(MSR)度量模型解释的变异,残差均方(MSE)是误差方差 σ2 的无偏估计。回归整体显著性F检验为:
F=MSEMSR∼F(k,n−k−1)
调整后的 R2 通过均方思想惩罚多余变量:Rˉ2=1−MSE/MST。
均方期望与统计推断
均方期望(EMS)是理解方差分析检验逻辑的基础。对于固定效应模型:
E(MSB)=σ2+k−1∑njτj2,E(MSW)=σ2
当所有处理效应 τj=0 时,两均方期望相等,F 值接近 1。对于随机效应模型,均方期望包含随机效应方差成分,可用于方差组分分析。
均方根误差
均方根误差(RMSE)定义为 MSE 的平方根:
RMSE=MSE=n−k−1∑(yi−y^i)2
RMSE 量纲与因变量相同,比 MSE 更具直观性。在机器学习中,RMSE 是最常用的回归评价指标之一。
历史与发展
均方思想可追溯至卡尔·皮尔逊和罗纳德·费希尔在 20 世纪初的工作。费希尔于 1918 年引入方差分析,均方作为关键统计量由此确立。F 分布和 F 检验基于均方比率,奠定了现代实验设计和统计推断的基础。此后,均方在实验设计、方差组分分析和质量工程中持续发挥重要作用。