ARTICLE

样本量计算

样本量计算 (Sample Size Calculation) 样本量计算(Sample Size Calculation)是统计学实验设计中的核心环节,指在研究设计阶段,基于预定的统计精度、检验功效和效应大小,确定所需最小观测数量的系统方法。它直接决定研究的统计推断可靠性、资源效率以及伦理合规性(尤其在临床试验中)。样本量过小导致功效不足,无法检出真实存在

浏览 0 更新 2025-10-26

样本量计算 (Sample Size Calculation)

样本量计算(Sample Size Calculation)是统计学实验设计中的核心环节,指在研究设计阶段,基于预定的统计精度、检验功效和效应大小,确定所需最小观测数量的系统方法。它直接决定研究的统计推断可靠性、资源效率以及伦理合规性(尤其在临床试验中)。样本量过小导致功效不足,无法检出真实存在的效应;样本量过大则浪费资源,且可能将微不足道的效应检测为统计显著。

核心要素

样本量计算依赖四个相互关联的参数:

  1. 效应大小 (Effect Size):研究者期望检测的最小有实际意义的差异或关联强度,记为 dd(Cohen's d)、ff(方差分析)或 rr(相关分析)。效应越小,所需样本越大。效应大小的设定应基于前期文献、元分析或领域内公认的最小重要差异 (MCID),而非随意指定。
  2. 显著性水平 (α\alpha):犯第一类错误(拒真错误)的最大容忍概率,通常取 0.050.05α\alpha 越小,所需样本越大。多重比较时需进行 Bonferroni 等校正,相应增大样本需求。
  3. 统计功效 (1β1 - \beta):当备择假设为真时正确拒绝原假设的概率。β\beta第二类错误(取伪错误)概率。惯例要求功效不低于 0.800.80,医学确证性试验常要求 0.900.90。功效越高,所需样本越大。
  4. 变异度 (σ2\sigma^2):总体方差或结局变量的离散程度,通常从预试验或历史数据估计。变异度越大,所需样本越大。对于二分类结局,方差由比例 pp 本身决定:σ2=p(1p)\sigma^2 = p(1-p)

常用公式

\subsubsection*{单样本均值检验}

检验 H0:μ=μ0H_0: \mu = \mu_0H1:μμ0H_1: \mu \neq \mu_0(双侧),所需样本量为:

n=(z1α/2+z1β)2σ2δ2n = \frac{(z_{1-\alpha/2} + z_{1-\beta})^2 \cdot \sigma^2}{\delta^2}

其中 δ=μ1μ0\delta = |\mu_1 - \mu_0| 为有实际意义的均值差异,z1α/2z_{1-\alpha/2}z1βz_{1-\beta} 为标准正态分布分位数。当 α=0.05\alpha = 0.05(双侧)且 1β=0.801-\beta = 0.80 时,(z0.975+z0.80)2(1.96+0.84)2=7.85(z_{0.975} + z_{0.80})^2 \approx (1.96 + 0.84)^2 = 7.85,公式简化为 n7.85σ2/δ2n \approx 7.85 \cdot \sigma^2 / \delta^2

\subsubsection*{两独立样本均值比较}

在两组样本量相等 (n1=n2=nn_1 = n_2 = n) 的设计中:

nper group=2(z1α/2+z1β)2σ2δ2n_{\text{per group}} = \frac{2(z_{1-\alpha/2} + z_{1-\beta})^2 \cdot \sigma^2}{\delta^2}

其中 δ\delta 为两组均值之差。此公式是临床试验中最常用的样本量计算公式。若两组方差不齐,需采用 Satterthwaite 自由度校正并通过迭代求解。

\subsubsection*{两独立样本比例比较}

比较两个独立比例 p1p_1p2p_2

nper group=(z1α/2+z1β)2[p1(1p1)+p2(1p2)](p1p2)2n_{\text{per group}} = \frac{(z_{1-\alpha/2} + z_{1-\beta})^2 \cdot [p_1(1-p_1) + p_2(1-p_2)]}{(p_1 - p_2)^2}

采用正态近似,当比例接近 0 或 1 时应使用Fisher精确检验或基于 arcsine 变换的公式。

\subsubsection*{横截面调查中的样本量}

估计总体比例 pp 时,给定误差边际 dd

n=z1α/22p(1p)d2n = \frac{z_{1-\alpha/2}^2 \cdot p(1-p)}{d^2}

pp 未知时,取 p=0.5p = 0.5 使方差最大化,获得最保守的样本量估计。若总体有限且较小 (N<10,000N < 10{,}000),可引入有限总体校正因子:

nadj=n1+(n1)/Nn_{\text{adj}} = \frac{n}{1 + (n - 1)/N}

实用考量

  1. 失访与脱落:实际招募量需在计算值基础上按预期失访率放大,通常乘以 1/(1rdropout)1 / (1 - r_{\text{dropout}})。若预期脱落率为 20\%,则招募量应为计算值的 1/0.8=1.251/0.8 = 1.25 倍。
  2. 非等组分配:两组样本量不等时,功率下降。若两组分配比为 k:1k:1,则每组的相对样本量为 n1=nequal(k+1)/(2k)n_1 = n_{\text{equal}} \cdot (k+1)/(2k)n2=kn1n_2 = k n_1,总样本量增大。
  3. 复合终点与多重检验:多个主要终点时需调整 α\alpha 分配,相应的样本量应基于最保守的终点或通过模拟研究确定。
  4. 序贯设计与自适应设计:期中分析会消耗 α\alpha,需采用 O'Brien-Fleming 或 Pocock 边界调整,样本量也需相应增加。
  5. 软件工具:常用工具有 PASS、G*Power(免费)、R 包 \texttt{pwr} 和 \texttt{samplesize}、SAS 的 PROC POWER 等。手动计算仅适用于简单设计,复杂设计(如混合效应模型、生存分析)建议使用模拟方法。

功效分析的关系

样本量计算与功效分析是同一问题的两种表述:给定样本量计算可达到的功效(事后功效分析),或给定目标功效计算所需样本量(先验样本量计算)。在频率学派框架下,强调在研究开始前进行先验样本量计算,因为事后功效分析受已观测效应大小的抽样变异影响,可能产生误导。贝叶斯框架则关注后验分布的精度或决策理论的期望损失,其样本量确定方法——如保证后验概率区间宽度或使期望损失最小化——在适应性设计和罕见病研究中日益受到重视。

常见误区

实践中样本量计算常伴随若干误区。其一,将公式机械套用而不验证前提假设——正态性、方差齐性、独立性——可能导致严重偏差;当数据不满足正态假设时,应基于 Wilcoxon 秩和检验或 Bootstrap 重抽样进行样本量估计。其二,混淆统计显著与临床显著:大样本下极小的效应也可能达到 p<0.05p < 0.05,但该效应未必具有实际意义,因此样本量计算必须以有实际意义的效应大小为锚。其三,忽视设计效应 (Design Effect):整群随机试验或分层抽样中,群内相关性会使有效样本量小于名义样本量,需乘以设计效应因子 1+(m1)ρ1 + (m-1)\rho(其中 mm 为平均群大小,ρ\rho 为组内相关系数)以校正。其四,盲目追求大样本而忽略偏倚控制:样本量的增大无法弥补选择偏倚、测量偏倚或混杂偏倚对内部效度的损害——研究的信度固然重要,但效度更不可牺牲。