ARTICLE

sample size

Sample Size(样本量),在统计学和计量经济学中通常用 n 表示,是指一次研究中从总体(Population)抽取的观测单元或个体的数量。它是实验设计和调查研究中最基础也最关键的决策变量之一,直接影响估计的精确性、假设检验的统计功效(Statistical Power)以及研究结论的可推广性。样本量的选取必须在统计效率与经济可行性之间进行审慎权衡:样

浏览 0 更新 2025-10-26

Sample Size(样本量),在统计学计量经济学中通常用 n n 表示,是指一次研究中从总体(Population)抽取的观测单元或个体的数量。它是实验设计和调查研究中最基础也最关键的决策变量之一,直接影响估计的精确性假设检验统计功效(Statistical Power)以及研究结论的可推广性。样本量的选取必须在统计效率与经济可行性之间进行审慎权衡:样本量过小可能导致研究无法检测到真实存在的效应,样本量过大则会造成资源浪费并可能使微小而无实际意义的差异达到统计显著性

样本量的统计基础

样本量在统计推断中扮演着核心角色,其影响贯穿参数估计和假设检验的全过程。在参数估计中,样本均值 xˉ \bar{x} 的标准误(Standard Error)为 σ/n \sigma/\sqrt{n} ,其中 σ \sigma 为总体标准差。标准误与 n \sqrt{n} 成反比,意味着样本量每增加为原来的四倍,标准误缩小为原来的一半。置信区间(Confidence Interval)的宽度同样由 zα/2σ/n z_{\alpha/2} \cdot \sigma/\sqrt{n} 决定,样本量越大,区间越窄,估计越精确。在假设检验中,检验统计量通常包含样本量因子:例如单样本 t t 检验的统计量为 t=(xˉμ0)/(s/n) t = (\bar{x} - \mu_0) / (s / \sqrt{n}) n n 越大,同样大小的均值差异在统计上就越容易显著。

统计功效(1β 1-\beta )是指在备择假设为真的条件下正确拒绝原假设的概率。样本量是影响统计功效的最关键因素之一。当效应量(Effect Size)固定时,增大样本量可以同时降低第一类错误和第二类错误的概率。功效函数通常表现为样本量的单调递增函数——研究者在设计阶段通过先验功效分析(A Priori Power Analysis)确定所需的最小样本量,以保证达到预设的功效水平(通常为 80\% 或 90\%)。

样本量确定的核心因素

确定最小所需样本量需综合考量以下要素。第一,效应量是预期检测的效应或关系的标准化度量,常见的效应量指标包括Cohen's d(两组均值差异除以合并标准差)、η2 \eta^2 (方差分析中的效应大小)以及相关系数 r r 等。效应量越小,所需的样本量越大。第二,显著性水平α \alpha )代表容许犯第一类错误的概率,通常设定为 0.05,更严格的 α \alpha 值(如 0.01)需要更大的样本量。第三,统计功效1β 1-\beta )越高,所需样本量越大。第四,数据的变异性(总体标准差 σ \sigma )越大,所需样本量越大。上述四个要素相互关联,构成了功效分析的四角框架,改变其中任何一个都会影响最终所需的样本量。

不同研究设计中的样本量公式

针对不同的研究目标和数据类型,样本量的计算公式有所不同。

估计总体均值时,所需样本量为:

n=(Zα/2σE)2n = \left(\frac{Z_{\alpha/2} \cdot \sigma}{E}\right)^2

其中 E E 为可接受的误差范围(Margin of Error),Zα/2 Z_{\alpha/2} 为标准正态分布的临界值。

估计总体比例时,公式为:

n=Zα/22p(1p)E2n = \frac{Z_{\alpha/2}^2 \cdot p(1-p)}{E^2}

当对总体比例 p p 无任何先验信息时,取 p=0.5 p=0.5 可得最大(最保守)的样本量估计。

两独立样本均值比较时,每组所需样本量为:

n1=n2=2((Zα/2+Zβ)σμ1μ2)2n_1 = n_2 = 2\left(\frac{(Z_{\alpha/2} + Z_{\beta})\sigma}{\mu_1 - \mu_2}\right)^2

其中 Zβ Z_{\beta} 对应所需的统计功效水平。

配对样本的效应量通常大于独立样本,因为配对设计消除了个体间变异的干扰,从而可以在更小的样本量下达到同样的统计功效。对于多组比较(如 ANOVA 设计),样本量的确定需引入 f f 效应量和非中心 F F 分布。对于回归分析结构方程模型,经验法则通常建议每个预测变量至少需要 10-20 个观测值,但更精确的方法是基于期望的效应量和统计功效进行计算。

实践中的注意事项

在应用样本量计算时需注意以下几点。第一,有限总体修正(Finite Population Correction, FPC)适用于样本量 n n 超过总体 N N 的 5\% 的情形:修正公式为 nadj=n/[1+(n1)/N] n_{\text{adj}} = n / [1 + (n-1)/N] 。第二,计算出的样本量是最终分析所需的有效观测数,实践中需根据预期的无应答率、退出率或数据缺失率向上调整初始招募数量。例如,若预期 20\% 的参与者可能流失,则应招募 n/0.8 n / 0.8 名受试者。第三,样本量计算应基于先验的理论依据或试点研究的数据,而非在数据分析之后进行"事后功效分析"(Post Hoc Power Analysis),后者存在循环论证的逻辑问题。第四,应区分统计显著性与实际显著性。在大样本下,即使极小的效应量也能达到统计显著,研究者必须同时报告效应量和置信区间以评估结果的实际意义。第五,对于复杂抽样设计(如整群抽样、分层抽样、多阶段抽样),需考虑设计效应(Design Effect)对有效样本量的折减效应,实际所需样本量应乘以设计效应因子。

样本量的常见误区

实际研究中存在若干关于样本量的普遍误解,值得特别警惕。

误区一:样本量必须达到总体的某个固定比例。许多人误以为要得到可靠结果,样本量必须占总体的一定百分比(如 10\%)。事实上,估计的精确性主要取决于样本量的绝对大小,而非其相对于总体的比例。对于数百万人口的总体,数千人的随机样本即可提供高度精确的估计,关键在于抽样的随机性和代表性而非抽样比例。

误区二:事后功效分析有意义。在数据分析完成后,利用已观测到的效应量、样本量和显著性水平计算"观测功效"是一种常见的错误做法。由于观测到的 p p -value 与观测功效之间存在一一对应关系,这种分析并不提供超出 p p -value 的额外信息,且容易产生误导性结论。

误区三:样本量越大越好。虽然增大样本量可以提高精确度,但过大的样本量会使研究中极微小、无实际意义的差异达到统计显著。在大规模研究中,研究者应特别关注效应量的估计和置信区间,而非仅依赖 p p -value 做二元判断。

误区四:所有子组都需达到最小样本量要求。在进行亚组分析或多重比较时,总体样本量满足要求并不意味着每个子组都具备足够的统计功效。研究者需确保关键亚组或分层比较也达到独立的样本量要求,否则可能因亚组分析功效不足而遗漏重要的组间差异。