ARTICLE

样本量计算

样本量计算 (Sample Size Calculation) 样本量计算（Sample Size Calculation）是统计学实验设计中的核心环节，指在研究设计阶段，基于预定的统计精度、检验功效和效应大小，确定所需最小观测数量的系统方法。它直接决定研究的统计推断可靠性、资源效率以及伦理合规性（尤其在临床试验中）。样本量过小导致功效不足，无法检出真实存在

浏览 0 更新 2025-10-26

样本量计算 (Sample Size Calculation)

样本量计算（Sample Size Calculation）是统计学实验设计中的核心环节，指在研究设计阶段，基于预定的统计精度、检验功效和效应大小，确定所需最小观测数量的系统方法。它直接决定研究的统计推断可靠性、资源效率以及伦理合规性（尤其在临床试验中）。样本量过小导致功效不足，无法检出真实存在的效应；样本量过大则浪费资源，且可能将微不足道的效应检测为统计显著。

核心要素

样本量计算依赖四个相互关联的参数：

效应大小 (Effect Size)：研究者期望检测的最小有实际意义的差异或关联强度，记为 $d$ （Cohen's d）、 $f$ （方差分析）或 $r$ （相关分析）。效应越小，所需样本越大。效应大小的设定应基于前期文献、元分析或领域内公认的最小重要差异 (MCID)，而非随意指定。
显著性水平 ( $\alpha$ )：犯第一类错误（拒真错误）的最大容忍概率，通常取 $0.05$ 。 $\alpha$ 越小，所需样本越大。多重比较时需进行 Bonferroni 等校正，相应增大样本需求。
统计功效 ( $1 - \beta$ )：当备择假设为真时正确拒绝原假设的概率。 $\beta$ 为第二类错误（取伪错误）概率。惯例要求功效不低于 $0.80$ ，医学确证性试验常要求 $0.90$ 。功效越高，所需样本越大。
变异度 ( $\sigma^2$ )：总体方差或结局变量的离散程度，通常从预试验或历史数据估计。变异度越大，所需样本越大。对于二分类结局，方差由比例 $p$ 本身决定： $\sigma^2 = p(1-p)$ 。

常用公式

\subsubsection*{单样本均值检验}

检验 $H_0: \mu = \mu_0$ 对 $H_1: \mu \neq \mu_0$ （双侧），所需样本量为：

n = \frac{(z_{1-\alpha/2} + z_{1-\beta})^2 \cdot \sigma^2}{\delta^2}

其中 $\delta = |\mu_1 - \mu_0|$ 为有实际意义的均值差异， $z_{1-\alpha/2}$ 和 $z_{1-\beta}$ 为标准正态分布分位数。当 $\alpha = 0.05$ （双侧）且 $1-\beta = 0.80$ 时， $(z_{0.975} + z_{0.80})^2 \approx (1.96 + 0.84)^2 = 7.85$ ，公式简化为 $n \approx 7.85 \cdot \sigma^2 / \delta^2$ 。

\subsubsection*{两独立样本均值比较}

在两组样本量相等 ( $n_1 = n_2 = n$ ) 的设计中：

n_{\text{per group}} = \frac{2(z_{1-\alpha/2} + z_{1-\beta})^2 \cdot \sigma^2}{\delta^2}

其中 $\delta$ 为两组均值之差。此公式是临床试验中最常用的样本量计算公式。若两组方差不齐，需采用 Satterthwaite 自由度校正并通过迭代求解。

\subsubsection*{两独立样本比例比较}

比较两个独立比例 $p_1$ 与 $p_2$ ：

n_{\text{per group}} = \frac{(z_{1-\alpha/2} + z_{1-\beta})^2 \cdot [p_1(1-p_1) + p_2(1-p_2)]}{(p_1 - p_2)^2}

采用正态近似，当比例接近 0 或 1 时应使用Fisher精确检验或基于 arcsine 变换的公式。

\subsubsection*{横截面调查中的样本量}

估计总体比例 $p$ 时，给定误差边际 $d$ ：

n = \frac{z_{1-\alpha/2}^2 \cdot p(1-p)}{d^2}

当 $p$ 未知时，取 $p = 0.5$ 使方差最大化，获得最保守的样本量估计。若总体有限且较小 ( $N < 10{,}000$ )，可引入有限总体校正因子：

n_{\text{adj}} = \frac{n}{1 + (n - 1)/N}

实用考量

失访与脱落：实际招募量需在计算值基础上按预期失访率放大，通常乘以 $1 / (1 - r_{\text{dropout}})$ 。若预期脱落率为 20\%，则招募量应为计算值的 $1/0.8 = 1.25$ 倍。
非等组分配：两组样本量不等时，功率下降。若两组分配比为 $k:1$ ，则每组的相对样本量为 $n_1 = n_{\text{equal}} \cdot (k+1)/(2k)$ ， $n_2 = k n_1$ ，总样本量增大。
复合终点与多重检验：多个主要终点时需调整 $\alpha$ 分配，相应的样本量应基于最保守的终点或通过模拟研究确定。
序贯设计与自适应设计：期中分析会消耗 $\alpha$ ，需采用 O'Brien-Fleming 或 Pocock 边界调整，样本量也需相应增加。
软件工具：常用工具有 PASS、G*Power（免费）、R 包 \texttt{pwr} 和 \texttt{samplesize}、SAS 的 PROC POWER 等。手动计算仅适用于简单设计，复杂设计（如混合效应模型、生存分析）建议使用模拟方法。

与功效分析的关系

样本量计算与功效分析是同一问题的两种表述：给定样本量计算可达到的功效（事后功效分析），或给定目标功效计算所需样本量（先验样本量计算）。在频率学派框架下，强调在研究开始前进行先验样本量计算，因为事后功效分析受已观测效应大小的抽样变异影响，可能产生误导。贝叶斯框架则关注后验分布的精度或决策理论的期望损失，其样本量确定方法——如保证后验概率区间宽度或使期望损失最小化——在适应性设计和罕见病研究中日益受到重视。

常见误区

实践中样本量计算常伴随若干误区。其一，将公式机械套用而不验证前提假设——正态性、方差齐性、独立性——可能导致严重偏差；当数据不满足正态假设时，应基于 Wilcoxon 秩和检验或 Bootstrap 重抽样进行样本量估计。其二，混淆统计显著与临床显著：大样本下极小的效应也可能达到 $p < 0.05$ ，但该效应未必具有实际意义，因此样本量计算必须以有实际意义的效应大小为锚。其三，忽视设计效应 (Design Effect)：整群随机试验或分层抽样中，群内相关性会使有效样本量小于名义样本量，需乘以设计效应因子 $1 + (m-1)\rho$ （其中 $m$ 为平均群大小， $\rho$ 为组内相关系数）以校正。其四，盲目追求大样本而忽略偏倚控制：样本量的增大无法弥补选择偏倚、测量偏倚或混杂偏倚对内部效度的损害——研究的信度固然重要，但效度更不可牺牲。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。