ARTICLE

样本均值 (Sample Mean)

样本均值 (Sample Mean) 样本均值(Sample Mean)是最基础且最重要的样本统计量之一,记为 x 或 ,用于估计总体均值 。给定一组独立同分布的样本观测值 x_1, x_2, , x_n,样本均值的定义为: 该公式即所有观测值的算术平均。样本均值之所以在统计学中占据核心地位,主要归因于以下三个关键性质:无偏性(Unbiasedness)、一

浏览 0 更新 2025-10-26

样本均值 (Sample Mean)

样本均值(Sample Mean)是最基础且最重要的样本统计量之一,记为 xˉ\bar{x}μ^\hat{\mu},用于估计总体均值 μ\mu。给定一组独立同分布的样本观测值 x1,x2,,xnx_{1}, x_{2}, \dots, x_{n},样本均值的定义为:

xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_{i}

该公式即所有观测值的算术平均。样本均值之所以在统计学中占据核心地位,主要归因于以下三个关键性质:无偏性(Unbiasedness)、一致性(Consistency)以及由中心极限定理(Central Limit Theorem)所保证的渐近正态性(Asymptotic Normality)。

定义与计算

X1,X2,,XnX_{1}, X_{2}, \dots, X_{n} 为来自总体 FF随机样本(Random Sample),总体均值为 μ=E[Xi]\mu = \mathbb{E}[X_{i}],总体方差为 σ2=Var(Xi)\sigma^{2} = \operatorname{Var}(X_{i})。样本均值定义为各观测值的算术平均:

Xˉn=1ni=1nXi\bar{X}_{n} = \frac{1}{n}\sum_{i=1}^{n} X_{i}

将具体数值代入即得 xˉ\bar{x},它是 μ\mu点估计(Point Estimate)。例如,某班级 5 名学生的考试成绩为 82、90、75、88、95,则样本均值为 xˉ=(82+90+75+88+95)/5=86\bar{x} = (82+90+75+88+95)/5 = 86 分。

抽样分布与矩

样本均值本身是一个随机变量(Random Variable)——因为抽样之前其值不确定。理解它的分布(即样本均值抽样分布)是统计推断的基石。

  • 期望E[Xˉ]=μ\mathbb{E}[\bar{X}] = \mu,这保证了无偏性(Unbiasedness),即大量重复抽样下样本均值的平均值恰好等于总体均值。
  • \wiki方差Var(Xˉ)=σ2/n\operatorname{Var}(\bar{X}) = \sigma^{2}/n,表明样本均值的波动幅度随样本量 nn 增大而减小。其平方根 σ/n\sigma / \sqrt{n} 称为标准误(Standard Error, SE)。
  • 无偏估计:若总体方差 σ2\sigma^{2} 未知,可用样本方差 s2s^{2} 估计标准误:SE^=s/n\widehat{\text{SE}} = s / \sqrt{n}

核心定理

大数定律 (Law of Large Numbers):当 nn \to \infty 时,样本均值依概率收敛于总体均值:

Xˉnpμ\bar{X}_{n} \xrightarrow{p} \mu

该定理保证了样本量足够大时,样本均值无限接近真实总体均值。

中心极限定理 (Central Limit Theorem):无论总体分布为何,只要其方差有限,标准化后的样本均值渐近服从标准正态分布:

Xˉnμσ/ndN(0,1)\frac{\bar{X}_{n} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1)

这为置信区间(Confidence Interval)和假设检验(Hypothesis Testing)提供了理论基础。即使总体不服从正态分布,只要样本量足够大(通常 n30n \geq 30),样本均值的分布也近似正态。

应用举例

例:总体均值的置信区间。假设某工厂生产一批电子元件,抽取 n=100n = 100 件测量其寿命,得 xˉ=1200\bar{x} = 1200 小时,s=80s = 80 小时。则总体均值的 95\% 置信区间为:

xˉ±z0.025sn=1200±1.96×8=[1184.32,1215.68]\bar{x} \pm z_{0.025} \cdot \frac{s}{\sqrt{n}} = 1200 \pm 1.96 \times 8 = [1184.32, 1215.68]

即我们有 95\% 的信心认为元件真实平均寿命介于 1184.32 至 1215.68 小时之间。

重要性质总结

  • 无偏性E[Xˉ]=μ\mathbb{E}[\bar{X}] = \mu
  • 一致性Xˉnpμ\bar{X}_{n} \xrightarrow{p} \mu(大数定律)
  • 渐近正态性n(Xˉnμ)dN(0,σ2)\sqrt{n}(\bar{X}_{n} - \mu) \xrightarrow{d} N(0, \sigma^{2})(中心极限定理)
  • 有效性:在独立同分布且方差有限的条件下,样本均值是 μ\mu最小方差无偏估计量(UMVUE),即高斯-马尔可夫定理的一个特例。
  • 线性性:样本均值是数据的线性函数,分析简便。

与其他概念的联系

样本均值是连接描述统计与推断统计的桥梁。在回归分析中,被解释变量的样本均值在总平方和(SST)的分解中扮演角色;在方差分析(ANOVA)中,各组均值与总均值的比较构成检验的基础;在矩估计法(Method of Moments)中,样本均值是总体均值的一阶矩估计量。此外,自助法(Bootstrap)通过对样本均值反复重抽样来估计其抽样分布,这构成了现代非参数推断的重要工具。