ARTICLE
样本量计算
样本量计算 (Sample Size Calculation) 样本量计算(Sample Size Calculation)是统计学实验设计中的核心环节,指在研究设计阶段,基于预定的统计精度、检验功效和效应大小,确定所需最小观测数量的系统方法。它直接决定研究的统计推断可靠性、资源效率以及伦理合规性(尤其在临床试验中)。样本量过小导致功效不足,无法检出真实存在
样本量计算 (Sample Size Calculation)
样本量计算(Sample Size Calculation)是统计学实验设计中的核心环节,指在研究设计阶段,基于预定的统计精度、检验功效和效应大小,确定所需最小观测数量的系统方法。它直接决定研究的统计推断可靠性、资源效率以及伦理合规性(尤其在临床试验中)。样本量过小导致功效不足,无法检出真实存在的效应;样本量过大则浪费资源,且可能将微不足道的效应检测为统计显著。
核心要素
样本量计算依赖四个相互关联的参数:
- 效应大小 (Effect Size):研究者期望检测的最小有实际意义的差异或关联强度,记为 (Cohen's d)、(方差分析)或 (相关分析)。效应越小,所需样本越大。效应大小的设定应基于前期文献、元分析或领域内公认的最小重要差异 (MCID),而非随意指定。
- 显著性水平 ():犯第一类错误(拒真错误)的最大容忍概率,通常取 。 越小,所需样本越大。多重比较时需进行 Bonferroni 等校正,相应增大样本需求。
- 统计功效 ():当备择假设为真时正确拒绝原假设的概率。 为第二类错误(取伪错误)概率。惯例要求功效不低于 ,医学确证性试验常要求 。功效越高,所需样本越大。
- 变异度 ():总体方差或结局变量的离散程度,通常从预试验或历史数据估计。变异度越大,所需样本越大。对于二分类结局,方差由比例 本身决定:。
常用公式
\subsubsection*{单样本均值检验}
检验 对 (双侧),所需样本量为:
其中 为有实际意义的均值差异, 和 为标准正态分布分位数。当 (双侧)且 时,,公式简化为 。
\subsubsection*{两独立样本均值比较}
在两组样本量相等 () 的设计中:
其中 为两组均值之差。此公式是临床试验中最常用的样本量计算公式。若两组方差不齐,需采用 Satterthwaite 自由度校正并通过迭代求解。
\subsubsection*{两独立样本比例比较}
比较两个独立比例 与 :
采用正态近似,当比例接近 0 或 1 时应使用Fisher精确检验或基于 arcsine 变换的公式。
\subsubsection*{横截面调查中的样本量}
估计总体比例 时,给定误差边际 :
当 未知时,取 使方差最大化,获得最保守的样本量估计。若总体有限且较小 (),可引入有限总体校正因子:
实用考量
- 失访与脱落:实际招募量需在计算值基础上按预期失访率放大,通常乘以 。若预期脱落率为 20\%,则招募量应为计算值的 倍。
- 非等组分配:两组样本量不等时,功率下降。若两组分配比为 ,则每组的相对样本量为 ,,总样本量增大。
- 复合终点与多重检验:多个主要终点时需调整 分配,相应的样本量应基于最保守的终点或通过模拟研究确定。
- 序贯设计与自适应设计:期中分析会消耗 ,需采用 O'Brien-Fleming 或 Pocock 边界调整,样本量也需相应增加。
- 软件工具:常用工具有 PASS、G*Power(免费)、R 包 \texttt{pwr} 和 \texttt{samplesize}、SAS 的 PROC POWER 等。手动计算仅适用于简单设计,复杂设计(如混合效应模型、生存分析)建议使用模拟方法。
与功效分析的关系
样本量计算与功效分析是同一问题的两种表述:给定样本量计算可达到的功效(事后功效分析),或给定目标功效计算所需样本量(先验样本量计算)。在频率学派框架下,强调在研究开始前进行先验样本量计算,因为事后功效分析受已观测效应大小的抽样变异影响,可能产生误导。贝叶斯框架则关注后验分布的精度或决策理论的期望损失,其样本量确定方法——如保证后验概率区间宽度或使期望损失最小化——在适应性设计和罕见病研究中日益受到重视。
常见误区
实践中样本量计算常伴随若干误区。其一,将公式机械套用而不验证前提假设——正态性、方差齐性、独立性——可能导致严重偏差;当数据不满足正态假设时,应基于 Wilcoxon 秩和检验或 Bootstrap 重抽样进行样本量估计。其二,混淆统计显著与临床显著:大样本下极小的效应也可能达到 ,但该效应未必具有实际意义,因此样本量计算必须以有实际意义的效应大小为锚。其三,忽视设计效应 (Design Effect):整群随机试验或分层抽样中,群内相关性会使有效样本量小于名义样本量,需乘以设计效应因子 (其中 为平均群大小, 为组内相关系数)以校正。其四,盲目追求大样本而忽略偏倚控制:样本量的增大无法弥补选择偏倚、测量偏倚或混杂偏倚对内部效度的损害——研究的信度固然重要,但效度更不可牺牲。