ARTICLE
先验功效分析
先验功效分析 (A Priori Power Analysis) 先验功效分析(A Priori Power Analysis),又称前瞻功效分析或事前功效分析,是统计功效(Statistical Power)研究中最重要、应用最广泛的一类。它指的是在研究设计阶段、数据收集之前,通过预先设定的显著性水平(Significance Level, )、期望检测到
先验功效分析 (A Priori Power Analysis)
先验功效分析(A Priori Power Analysis),又称前瞻功效分析或事前功效分析,是统计功效(Statistical Power)研究中最重要、应用最广泛的一类。它指的是在研究设计阶段、数据收集之前,通过预先设定的显著性水平(Significance Level, )、期望检测到的效应量(Effect Size)以及目标统计功效(通常记为 ),来反推所需最小样本量(Sample Size, )的系统性方法。该技术的核心目的是在资源投入与统计推断可靠性之间取得最优平衡,确保研究既不因样本过小而无力检测到真实效应,也不因样本过大而浪费资源。
统计功效的概念基础
在执行任何假设检验(Hypothesis Testing)时,研究者面临两种可能的决策错误。第一类错误(Type I Error)是拒绝了正确的零假设(),其发生概率由显著性水平 控制,通常设为 0.05 或 0.01。第二类错误(Type II Error)则是未能拒绝错误的零假设,其发生概率记为 。统计功效定义为当零假设确实为假时,检验能够正确拒绝它的概率:
直观而言,功效反映了一项研究"发现真实效应"的能力。若功效为 0.80,意味着在零假设不成立的条件下,该研究有 80\% 的概率得出统计显著的结果;换言之,即便效应真实存在,仍有 20\% 的可能会错失它(即 20\% 的第二类错误率)。Cohen(1988)建议以 作为社会科学研究的最低可接受标准,此后该值成为大多数领域的惯例阈值。
先验功效分析的四要素
先验功效分析围绕四个相互关联的参数展开,任意三个确定后,第四个随之唯一确定。通常情况是固定 、效应量和目标功效,求解 。
- 显著性水平():即第一类错误率。 越小,要求越严格,所需样本量越大。双尾检验比单尾检验需要更大的样本,因为其拒绝域被拆分至分布的两端。研究者通常遵循学科惯例设定 ,很少因功效分析而调整——但在多重比较场景下需使用 Bonferroni 等校正,此时有效 大幅降低,样本需求显著上升。
- 效应量(Effect Size):指零假设与备择假设所指定的总体参数之间的差异程度。效应量越小,检测难度越大,所需样本量越大。效应量通常以标准化形式表达,如 Cohen 的 (两组均值差除以合并标准差)、Cohen 的 (适用于方差分析)、相关系数 、优势比(Odds Ratio)或风险比等。确定效应量是先验功效分析中最关键也最困难的环节——研究者尚无数据,必须基于先前的元分析、预实验、理论推导或学科共识来设定一个合理的"最小有意义效应量"(Smallest Effect Size of Interest, SESOI)。
- 统计功效():研究者期望达到的功效水平,通常设为 0.80,但更严格的领域(如医学随机对照试验)可能要求 0.90 甚至 0.95。功效越高,所需样本越大,且从 0.80 提升至 0.90 所需的额外样本往往远超预期——例如,独立样本 检验在中等效应量()下, 约需每组 64 人,而 则需要每组约 105 人。
- 样本量():先验功效分析的核心输出。样本量取决于上述三要素及具体的统计检验类型( 检验、卡方检验、回归分析、结构方程模型等)。对于复杂设计(如多水平模型、重复测量设计),样本量计算还需考虑组内相关系数(ICC)、重复测量次数、预测变量数量等额外参数。
数学基础
考虑最简单的单样本双侧 检验,检验 对 ,总体标准差 已知。给定 和真实效应 ,功效的计算如下:
设拒绝域为 。在 下,,因此:
其中 为标准正态分布的累积分布函数, 即为标准化效应量。对于给定的 、 和效应量,可由此方程反解 。实际研究中, 通常未知且以 估计,上述正态分布替换为 分布,计算需通过迭代或数值方法完成。
更为一般地,在任何检验框架下,功效函数均可表达为:
其中 代表总体参数的取值,(备择假设参数空间)。先验功效分析即是在 取特定值(由效应量指定)处求该函数的值并反解 。
操作流程与软件工具
先验功效分析的典型操作流程如下:
- 确定检验类型:选择与研究设计和假设相对应的统计检验——独立样本 检验、配对 检验、单因素或多因素方差分析、多元回归、逻辑回归、生存分析的对数秩检验、结构方程模型的模型拟合检验等。每种检验的功效函数不同,不可混用。
- 设定 和功效目标:(双侧), 是最常见的组合,但应根据领域标准和假说的严重程度调整。例如,临床试验中确认药物安全性的非劣效性检验可能使用 和 。
- 指定效应量:这是最具主观性的环节。研究者应优先参考高质量的元分析或系统综述;若无相关文献,可依据 Cohen 的惯用基准( 小、0.5 中、0.8 大)进行初步估算,同时明确说明其局限性。更好的做法是定义"最小临床/实际显著差异"——即在该领域内被认为具有实质意义的效应下限。
- 执行计算:使用专业软件。G*Power(Faul et al., 2007)是最流行的免费图形界面工具,覆盖绝大多数常见检验。在 R 中,\texttt{pwr} 包提供了 检验、比例检验、卡方检验等的功效函数;\texttt{simr} 包则支持混合效应模型的仿真功效分析;\texttt{pwrss} 包进一步扩展至结构方程模型。PASS 是商业软件选项,涵盖更为繁多的检验类型。对结构方程模型,还可使用 RMSEA 基的功效计算方法(MacCallum et al., 1996)。
- 进行敏感性分析:鉴于效应量难以精确预知,建议绘制"功效—样本量"曲线,展示在不同效应量假设下功效随样本量的变化轨迹,帮助在资源约束与统计要求之间做出透明决策。
与其它类型功效分析的关系
功效分析按执行时机可分为三类。除先验功效分析外,另有两类:
事后功效分析(Post Hoc Power Analysis)在数据收集和假设检验完成之后进行,利用已观测到的效应量计算该研究的"已实现功效"。方法论学者普遍警告此类分析的逻辑缺陷:若检验结果已不显著,事后功效必然较低;若已显著,事后功效必然较高——该分析提供的信息无非是 值的单调变换,对解读研究结果并无独立增量(Hoenig \& Heisey, 2001)。因此,事后功效分析不应被用于解释非显著结果(如声称"虽未显著,但功效已达 0.85,故支持零假设"——这犯了接受零假设的逻辑谬误)。
敏感性功效分析(Sensitivity Power Analysis)则在样本量已因现实约束(如稀有病例数量有限、预算封顶)而确定后,反过来求解在该样本下,给定 和功效,能检测到的最小效应量。这有助于坦率地界定研究的检测边界——"以现有 200 个样本,在 和 80\% 功效下,我们只能检测到 的效应"。
常见误区与实践建议
- 高估效应量:直接套用 Cohen 的基准而忽视领域特殊性是最常见的错误源。一个在认知心理学中属于"中等"的效应量(),在社会心理学或临床研究中可能已属乐观。研究者应查阅本领域元分析文献,了解效应量的典型范围和置信区间。
- 无视检验的自由度:功效随模型中参数数量的增加而降低。在多元回归中,每增加一个预测变量都会消耗自由度,需要增大样本。同样,在方差分析中,交互效应比主效应更难检测,功效计算时必须匹配所关注的特定效应项。
- 将先验功效分析视为一次性程序:实践中,研究者可能最初高估了可获得样本的数量,或因筛选标准导致有效样本大幅缩水。应在研究方案中预留缓冲(通常建议在计算出的 基础上增加 10\%--20\%),以应对缺失数据、失访和异常值剔除。
- 混淆统计显著性与实际显著性:大样本可以使微小的、毫无实际价值的效应达到统计显著。先验功效分析应聚焦于检测"有意义的效应量",而非机械追求 。定义 SESOI 是先验功效分析中最具科学价值的一步——它迫使研究者明确回答"多大的效应才算重要"。
- 复杂设计的仿真方法:对于非标准设计(如交叉分类随机效应模型、贝叶斯分析的先验预测检查),封闭形式的功效公式可能不存在或不精确。此时应使用蒙特卡洛仿真——反复从假设的数据生成过程中抽取随机样本、执行目标分析、记录显著结果的比例,以此估计功效。该方法灵活且直观,但计算量较大。
报告规范与透明性
APA(美国心理学会)等学术写作规范要求研究报告明确披露功效分析的方法和假设。《新英格兰医学杂志》和许多高影响力期刊在审稿阶段会严格审查样本量论证。一份完整的先验功效分析报告至少应包括:所依据的检验类型、 水平(单/双侧)、目标功效、效应量及其来源(引用文献或理论依据)、所用软件及其版本、以及计算得出的每组所需样本量。若进行了敏感性分析,应附功效曲线。对因资源限制无法达到目标功效的情况,应在"局限性"部分坦诚讨论,并报告该样本下可检测的最小效应量。
小结
先验功效分析是联结统计理论与研究实践的桥梁,它使样本量的确定从模糊的经验直觉转向基于可量化假设的理性决策。通过迫使研究者在数据收集之前明确效应量预期、错误容忍度和资源约束,先验功效分析不仅提升了研究的统计结论效度,更推动了科研伦理——因为样本不足的研究既浪费受试者与研究者资源,又可能因其无法产生确定性结论而阻碍科学知识的积累。在可重复性危机的反思浪潮中,先验功效分析被视为提升研究严谨性和可重复性的关键防线之一。