ARTICLE

统计功效

统计功效 (Statistical Power) 统计功效（Statistical Power），或简称为功效，是在假设检验（Hypothesis Testing）框架下的一个核心概念。它被定义为：当备择假设（ H_1 ）为真时，我们能够正确地拒绝原假设（ H_0 ）的概率。通俗地说，统计功效衡量的是一个研究或一项检验"侦测"到一个真实存在效应的能力。一个

浏览 104 更新 2025-10-26

统计功效 (Statistical Power)

统计功效（Statistical Power），或简称为功效，是在假设检验（Hypothesis Testing）框架下的一个核心概念。它被定义为：当备择假设（ $H_1$ ）为真时，我们能够正确地拒绝原假设（ $H_0$ ）的概率。通俗地说，统计功效衡量的是一个研究或一项检验"侦测"到一个真实存在效应的能力。

一个高功效的研究有很大概率能发现一个真实存在的效应，而一个低功效的研究则很可能错过它，即便该效应确实存在。因此，理解和计算统计功效对于研究设计、结果解释以及科学推断的有效性至关重要。在当今科学界对可重复性危机（Replication Crisis）的广泛讨论中，统计功效已成为方法论反思的核心议题之一。

正式定义与两类错误

在假设检验中，我们从两个相互对立的假设开始：

原假设（ $H_0$ ）：通常是我们希望推翻的假设，代表"没有效应"或"没有差异"（例如，新药与安慰剂效果相同）。
备择假设（ $H_1$ 或 $H_a$ ）：是我们希望证明其为真的假设，代表"存在效应"或"存在差异"（例如，新药比安慰剂更有效）。

在根据样本数据做出推断时，我们可能犯两种错误：

第一类错误（Type I Error）：错误地拒绝了实际为真的原假设 $H_0$ 。这一错误的概率用 $\alpha$ 表示，即显著性水平（Significance Level）。例如，我们得出结论说新药有效，但实际上它无效。这也被称为"假阳性"（False Positive）。
第二类错误（Type II Error）：错误地未能拒绝实际为假的原假设 $H_0$ 。这一错误的概率用 $\beta$ 表示。例如，新药实际上是有效的，但我们的研究未能检测出这一效果，因此没能拒绝"新药无效"的原假设。这也被称为"假阴性"（False Negative）。

统计功效正是与第二类错误直接相关的概念。它是我们避免犯第二类错误的概率，其数学关系式为：

\text{Power} = 1 - \beta

这意味着，如果一个研究犯第二类错误的概率 $\beta$ 是 $20\%$ （即 $0.2$ ），那么该研究的统计功效就是 $80\%$ （即 $0.8$ ）。下表清晰地展示了四种可能的决策结果：

\begin{tabular}{|c|c|c|} \hline \& 现实： $H_0$ 为真 \& 现实： $H_0$ 为假 \\ \hline 决策：拒绝 $H_0$ \& 第一类错误（ $\alpha$ ） \& 正确决策（功效， $1-\beta$ ） \\ \hline 决策：未拒绝 $H_0$ \& 正确决策（ $1-\alpha$ ） \& 第二类错误（ $\beta$ ） \\ \hline \end{tabular}

影响统计功效的五项决定性因素

统计功效不是一个固定的值，它受到研究设计中多个因素的共同影响。理解这些因素是进行先验功效分析（A Priori Power Analysis）的基础。

第一，效应大小（Effect Size）。效应大小是衡量现象强度或变量之间关系强度的标准化指标。一个大的效应（例如，一种能将恢复时间减半的药物）比一个小的效应（例如，仅将恢复时间缩短 $1\%$ 的药物）更容易被检测到。效应越大，统计功效越高。效应大小的常用指标包括科恩的 $d$ （Cohen's $d$ ）、相关系数 $r$ 或决定系数 $R^2$ 等。科恩本人曾提出一套经验基准： $d=0.2$ 为小效应， $d=0.5$ 为中等效应， $d=0.8$ 为大效应。研究者可根据领域惯例或先前文献来锚定预期的效应大小。

第二，样本量（ $n$ ）。这是研究者最常用来提高功效的手段。样本量越大，抽样误差（Sampling Error）就越小，样本统计量（如样本均值）就越能精确地代表总体参数（如总体均值）。这使得从数据"噪音"中分辨出真实"信号"（即效应）变得更容易。样本量越大，统计功效越高。然而，样本量的增加也意味着研究成本的上升——研究者必须在统计精度与资源约束之间寻求平衡，这正是先验功效分析所要解决的核心问题。

第三，显著性水平（ $\alpha$ ）。显著性水平 $\alpha$ 是我们愿意承担的第一类错误的风险上限（通常设定为 $0.05$ 或 $0.01$ ）。如果我们放宽这一标准（例如，将 $\alpha$ 从 $0.05$ 提高到 $0.10$ ），拒绝原假设的门槛就降低了，这使得更容易检测到效应，从而提高了功效。然而，这是一个权衡：提高 $\alpha$ 会提高功效，但同时也会增加犯第一类错误的风险。在实践中， $\alpha=0.05$ 已成为各学科约定俗成的惯例，除非在多重比较的情境下需要进行邦费罗尼校正（Bonferroni Correction）等调整。

第四，数据的变异性（Variability）。数据的内在变异性，通常用标准差（ $\sigma$ ）来衡量，对功效有显著影响。如果数据点非常分散（高变异性），真实的效应就可能被随机"噪音"所掩盖。相反，如果数据点非常集中（低变异性），即使是微小的效应也更容易显现出来。数据的变异性越低，统计功效越高。在实验设计中，可以通过使用更精确的测量工具、控制无关变量或采用随机区组设计（Randomized Block Design）来降低不可解释的变异。

第五，单尾检验与双尾检验（One-tailed vs.\ Two-tailed Test）。如果研究者有充分的理论依据预测效应的方向（例如，新药只会更好，不会更差），可以使用单尾检验。在相同的显著性水平 $\alpha$ 下，单尾检验将所有的拒绝域都放在分布的一侧，这使得它在检测该方向的效应时比双尾检验更具功效。然而，单尾检验也意味着放弃了检测反向效应的可能性——如果真实效应恰好与预测方向相反，研究将完全无法识别。因此，除非有极强的理论或实践理由，多数领域推荐使用更为保守的双尾检验。

为什么统计功效至关重要

第一，研究设计与资源配置。在进行研究之前，研究者应进行先验功效分析（A Priori Power Analysis）来估算所需的最小样本量。这可以确保研究有合理的机会检测到预期的效应，避免因样本量不足（即研究功效过低）而浪费时间、金钱和人力资源。一项从设计上就功效不足的研究是不符合研究伦理的，因为它无法对科学问题给出有意义的回答——既消耗了受试者的时间和风险承担，又无法产出可靠的知识。

第二，结果的正确解释。统计功效对于解读"不显著"的研究结果（即p值大于 $\alpha$ ）至关重要。如果一项高功效的研究未能发现显著效应，我们有较强的信心认为该效应在现实中可能确实不存在或非常微小，可以忽略不计。然而，如果一项低功效的研究未能发现显著效应，这一结果是模棱两可的：我们无法区分"确实没有效应"和"研究只是因为功效不足而未能检测到效应"这两种情况。这正是所谓的"证据的缺席不等于缺席的证据"（Absence of evidence is not evidence of absence）。

第三，可重复性危机（Replication Crisis）。在心理学、医学等许多领域，普遍存在的低统计功效被认为是导致可重复性危机的一个主要原因。功效不足的研究不仅更容易产生假阴性（第二类错误），而且当它们侥幸获得统计显著的结果时，这些结果也更有可能是假阳性（第一类错误），或者其报告的效应大小会被严重夸大——这一现象被称为"赢家诅咒"（Winner's Curse）或发表偏差（Publication Bias）。提高研究的统计功效是增强科学发现稳健性和可信度的关键一步。

第四，与贝叶斯统计的联系。从贝叶斯视角看，低统计功效也会降低研究的证据价值。即使获得了统计显著的结果，在低先验概率和低功效的条件下，后验概率（即研究假设实际为真的概率）仍然可能很低。这一洞见来自贝叶斯假说检验框架，进一步强化了提高功效的论证。

功效分析的实践

在实践中，功效分析通常在研究开始前进行，目的是为了确定样本量。为此，研究者需要设定以下四个量中的三个，以计算第四个：

统计功效（ $1-\beta$ ）：通常追求的目标是 0.80 或更高。这是由学者雅各布·科恩（Jacob Cohen）提出的一个广泛接受的惯例，意味着研究者愿意接受 $20\%$ 的第二类错误风险。在某些高风险领域（如药物审批），可能要求功效达到 $0.90$ 甚至更高。
显著性水平（ $\alpha$ ）：通常设定为 0.05。
效应大小（Effect Size）：可以基于先前的研究、领域知识或所关心的最小实际效应来估计。选择效应大小时应当审慎——过于乐观的效应估计会导致样本量不足，最终使研究实际功效远低于预期。
样本量（ $n$ ）：通常是功效分析中需要求解的未知数。

研究者可以使用专门的软件（如 G*Power）或编程语言中的统计包（如 R 语言的 \texttt{pwr} 包、Python 的 \texttt{statsmodels}）来执行这些计算。此外，在无法获得解析公式的复杂研究设计（如多层线性模型或结构方程模型）中，蒙特卡洛模拟（Monte Carlo Simulation）被广泛用于估计功效。

后验功效分析（Post Hoc Power Analysis）——即在研究完成并获得数据后再计算功效——是一个常见的但受方法论学者批判的做法。因为后验功效与已获得的 $p$ 值存在一一对应的函数关系，它并不能提供额外的信息，反而可能产生误导性的解释。更推荐的做法是报告置信区间和效应大小的估计精度，而非单纯依赖后验功效。

总结

统计功效是连接研究设计、统计推断和科学方法论的关键概念。它不仅是假设检验理论中的技术细节，更关乎科学研究的效率、伦理和可信度。在可重复性危机的时代背景下，充分理解和慎重对待统计功效——在研究设计阶段进行先验功效分析、在研究报告中透明地讨论功效的局限性——已成为负责任的研究实践的题中应有之义。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。