ARTICLE

检验统计量的计算

检验统计量的计算 (Calculation of Test Statistic) 在假设检验 (Hypothesis Testing) 的框架中,检验统计量 (Test Statistic) 是一个核心概念。它是一个根据样本数据计算出的标准化数值,其主要目的是量化样本结果与原假设 ( H_0 ) 之间的差异或偏离程度。通过计算检验统计量,我们可以将复杂的样本

浏览 19 更新 2025-10-25

检验统计量的计算 (Calculation of Test Statistic)

假设检验 (Hypothesis Testing) 的框架中,检验统计量 (Test Statistic) 是一个核心概念。它是一个根据样本数据计算出的标准化数值,其主要目的是量化样本结果与原假设 (H0 H_0 ) 之间的差异或偏离程度。通过计算检验统计量,我们可以将复杂的样本信息浓缩成一个单一的数值,并利用已知的概率分布来评估该样本结果出现的可能性,从而为是否拒绝原假设提供客观依据。

检验统计量的具体计算公式并非一成不变,它取决于多个因素,包括:

  1. 所检验的总体参数的类型(例如,总体均值 μ \mu 总体比例 p p 总体方差 σ2 \sigma^2 )。
  2. 关于总体的假设(例如,总体方差已知或未知,总体是否服从正态分布)。
  3. 样本量的大小。
  4. 样本是独立的还是相关的。

检验统计量的基本结构

尽管具体公式多样,但大多数检验统计量的计算都遵循一个共同的逻辑结构,尤其是在检验均值和比例时:

检验统计量=样本统计量原假设设定的总体参数值样本统计量的标准误\text{检验统计量} = \frac{\text{样本统计量} - \text{原假设设定的总体参数值}}{\text{样本统计量的标准误}}

这个结构可以进行如下解读:

  • 样本统计量 (Sample Statistic):从样本中直接计算出的数值,如样本均值 (xˉ \bar{x} ) 或样本比例 (p^ \hat{p} )。它是对未知总体参数的最佳点估计。
  • 原假设设定的总体参数值 (Hypothesized Population Parameter):在原假设 (H0 H_0 ) 中声明的特定数值,例如 H0:μ=μ0 H_0: \mu = \mu_0 中的 μ0 \mu_0 。这是我们进行比较的基准。
  • 分子 (样本统计量参数假设值) (\text{样本统计量} - \text{参数假设值}) :这个差值衡量了我们的观测结果与原假设预期结果之间的绝对差异。
  • 样本统计量的标准误 (Standard Error of the Statistic):它是抽样分布标准差,用以衡量样本统计量在不同样本之间的波动性或不确定性。用这个值作为分母,实际上是对分子中的绝对差异进行"标准化"。它告诉我们,观察到的差异相对于抽样中预期的随机波动而言,到底有多大。

通过这种标准化,我们可以将计算出的检验统计量置于一个标准的概率分布(如Z分布t分布)上,以确定其发生的概率(即p值)。

常用检验统计量的计算公式

下面详细介绍几种最常见的假设检验场景及其对应的检验统计量计算方法。

单个总体均值 (μ \mu ) 的检验

情况一:总体方差 σ2 \sigma^2 已知(或样本量极大,n>30 n > 30

这种情况在现实中较少见,因为总体方差通常是未知的。但当样本量足够大时,根据中心极限定理,我们可以用样本方差 s2 s^2 代替 σ2 \sigma^2 ,并且仍然使用Z检验。

  • 检验统计量Z统计量 (Z-statistic)
  • 计算公式: \[ z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} \]
  • 符号说明: \begin{itemize}
  • xˉ \bar{x} 样本均值
  • μ0 \mu_0 是原假设中的总体均值。
  • σ \sigma 总体标准差
  • n n 样本量

\end{itemize}

情况二:总体方差 σ2 \sigma^2 未知

这是实际应用中最常见的情况。由于 σ \sigma 未知,我们必须使用样本标准差 s s 来估计它。这种额外的不确定性使得我们不能再使用正态分布,而应使用t分布

  • 检验统计量t统计量 (t-statistic)
  • 计算公式: \[ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \]
  • 符号说明: \begin{itemize}
  • s s 样本标准差。其他符号同上。

\item 自由度 (Degrees of Freedom, df):该t统计量服从自由度为 df=n1 df = n-1 的t分布。 \end{itemize}

单个总体比例 (p p ) 的检验

当研究的数据是分类数据(如"是/否"、"合格/不合格")时,我们关心的是某个特征在总体中所占的比例。

  • 前提条件:样本量需要足够大,以满足正态近似二项分布的条件,通常要求 np010 np_0 \ge 10 n(1p0)10 n(1-p_0) \ge 10
  • 检验统计量Z统计量 (Z-statistic)
  • 计算公式: \[ z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} \]
  • 符号说明: \begin{itemize}
  • p^ \hat{p} 样本比例,计算方式为 p^=x/n \hat{p} = x/n ,其中 x x 是样本中具有该特征的个体数。
  • p0 p_0 是原假设中的总体比例。
  • n n 样本量

\item 注意:在计算标准误(分母)时,我们使用 p0 p_0 而不是 p^ \hat{p} ,因为在检验过程中,我们的一切计算都基于"原假设为真"的前提。 \end{itemize}

两个总体均值之差 (μ1μ2 \mu_1 - \mu_2 ) 的检验

独立样本 (Independent Samples)

a) 两总体方差 σ12,σ22 \sigma_1^2, \sigma_2^2 已知

z=(xˉ1xˉ2)D0σ12n1+σ22n2z = \frac{(\bar{x}_1 - \bar{x}_2) - D_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}

其中 D0 D_0 是假设的两总体均值之差(通常为0)。

b) 两总体方差未知但假定相等 (σ12=σ22 \sigma_1^2 = \sigma_2^2 ):首先计算合并方差 (Pooled Variance) sp2 s_p^2

sp2=(n11)s12+(n21)s22n1+n22s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2}

然后计算t统计量:

t=(xˉ1xˉ2)D0sp2(1n1+1n2)t = \frac{(\bar{x}_1 - \bar{x}_2) - D_0}{\sqrt{s_p^2 (\frac{1}{n_1} + \frac{1}{n_2})}}

该t统计量服从自由度为 df=n1+n22 df = n_1 + n_2 - 2 的t分布。

c) 两总体方差未知且不相等 (Welch's t-test):这是更稳健和常用的方法。

t=(xˉ1xˉ2)D0s12n1+s22n2t = \frac{(\bar{x}_1 - \bar{x}_2) - D_0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}

其自由度的计算公式(Welch-Satterthwaite方程)较为复杂,通常由统计软件自动计算。

配对样本 (Paired/Dependent Samples)

适用于"处理前/后"或相关配对的数据。首先计算每对数据之差 di=xi1xi2 d_i = x_{i1} - x_{i2} ,然后对这些差值进行单样本t检验。

  • 检验统计量t统计量 (t-statistic)
  • 计算公式: \[ t = \frac{\bar{d} - \mu_{d_0}}{s_d / \sqrt{n}} \]
  • 符号说明: \begin{itemize}
  • dˉ \bar{d} 是差值的样本均值。
  • sd s_d 是差值的样本标准差。
  • μd0 \mu_{d_0} 是假设的总体差值均值(通常为0)。
  • n n 是配对的数量。

\item 自由度df=n1 df = n-1 。 \end{itemize}

单个总体方差 (σ2 \sigma^2 ) 的检验

用于检验总体的离散程度或波动性。

  • 前提条件:总体必须服从正态分布,此检验对该假设非常敏感。
  • 检验统计量卡方统计量 (χ2 \chi^2 -statistic)
  • 计算公式: \[ \chi^2 = \frac{(n-1)s^2}{\sigma_0^2} \]
  • 符号说明: \begin{itemize}
  • s2 s^2 样本方差
  • σ02 \sigma_0^2 是原假设中的总体方差。
  • n n 样本量

\item 自由度:该卡方统计量服从自由度为 df=n1 df = n-1 卡方分布 (χ2 \chi^2 -distribution)。 \end{itemize}

如何使用检验统计量

计算出检验统计量的值本身并不是假设检验的终点。这个值必须与一个来自其对应概率分布的阈值进行比较,才能做出决策。有两种主流方法:

  1. 临界值法 (Critical Value Approach):根据给定的显著性水平 α \alpha 和检验类型(单尾或双尾),在检验统计量的分布上确定一个或多个临界值。这些临界值构成了拒绝域。如果计算出的检验统计量落在拒绝域内,则拒绝原假设 H0 H_0
  2. p值法 (p-value Approach):计算出在原假设为真的前提下,获得当前检验统计量或更极端值的概率,这个概率就是p值。如果p值小于或等于显著性水平 α \alpha ,则拒绝原假设 H0 H_0

在实践中,p值法更为常用,因为它不仅给出了"是/否"的决策,还提供了证据强弱的度量——p值越小,反对原假设的证据越强。

小结

检验统计量的计算是推断统计中连接样本数据与概率决策的桥梁。它通过标准化的形式,将样本信息映射到已知的概率分布之上,使得研究者能够以统一、客观的方式评估证据的强度。理解不同场景下检验统计量的选择与计算逻辑——Z检验、t检验、卡方检验各自的适用条件——是正确实施假设检验的前提。在应用时,务必注意检验的前提假设是否满足(如正态性、方差齐性、样本独立性),否则可能导致错误的推断结论。