ARTICLE

检验效能

检验效能 (Statistical Power) 检验效能（Statistical Power）是假设检验中一个核心概念，定义为当备择假设（公式）为真时，检验正确拒绝原假设（公式）的概率。在Neyman-Pearson框架下，假设检验面临两类错误——I类错误（Type I Error，弃真，概率记为公式）与II类错误（Type II Error，

浏览 0 更新 2026-01-15

检验效能 (Statistical Power)

检验效能（Statistical Power）是假设检验中一个核心概念，定义为当备择假设（ $H_1$ ）为真时，检验正确拒绝原假设（ $H_0$ ）的概率。在Neyman-Pearson框架下，假设检验面临两类错误——I类错误（Type I Error，弃真，概率记为 $\alpha$ ）与II类错误（Type II Error，存伪，概率记为 $\beta$ ）。检验效能即为 $1 - \beta$ ，反映检验"发现真实效应"的能力。直观地讲，如果一个检验的效能很低，即使真实效应存在，研究者也很可能得出"不显著"的结论——这意味着研究资源的浪费，甚至可能阻碍科学进展。

数学定义与功效函数

形式上，检验效能定义为功效函数（Power Function）在备择假设参数空间上的取值。设 $\theta$ 为未知参数，检验的拒绝域为 $R$ ，则功效函数为 $\pi(\theta) = P_{\theta}(\text{拒绝} H_0) = P_{\theta}(T \in R)$ ，其中 $T$ 为检验统计量。当 $\theta \in \Theta_0$ （原假设为真）时， $\pi(\theta) \le \alpha$ ，且理想情况下在边界处等于 $\alpha$ ；当 $\theta \in \Theta_1$ （备择假设为真）时， $\pi(\theta) = 1 - \beta(\theta)$ 即为检验效能。一个"一致最优"的检验（UMP检验，Uniformly Most Powerful）应在所有 $\theta \in \Theta_1$ 上最大化 $\pi(\theta)$ 。

以单样本 $z$ 检验为例： $H_0: \mu = \mu_0$ vs $H_1: \mu > \mu_0$ ，已知方差 $\sigma^2$ 。在显著性水平 $\alpha$ 下拒绝域为 $\bar{X} > \mu_0 + z_{1-\alpha} \cdot \sigma/\sqrt{n}$ 。若真实均值为 $\mu_1 > \mu_0$ ，则检验效能为：

\pi(\mu_1) = P\left(\bar{X} > \mu_0 + z_{1-\alpha} \frac{\sigma}{\sqrt{n}} \;\middle|\; \mu = \mu_1\right) = 1 - \Phi\left(z_{1-\alpha} - \frac{\mu_1 - \mu_0}{\sigma/\sqrt{n}}\right)

其中 $\Phi$ 为标准正态分布的CDF， $\delta = (\mu_1 - \mu_0)/(\sigma/\sqrt{n})$ 称为非中心参数（non-centrality parameter），度量了效应相对于标准误的大小。该公式清晰展示了效能与 $\alpha$ 、效应量（ $\mu_1 - \mu_0$ ）、样本量 $n$ 和方差 $\sigma^2$ 之间的定量关系。

影响检验效能的四大因素

显著性水平 $\alpha$ ：放宽显著性水平（如从0.01提升至0.05）直接降低拒绝域的临界值 $z_{1-\alpha}$ ，使检验更容易拒绝 $H_0$ ，从而提升效能。但这是一把双刃剑——提升 $\alpha$ 同时增加了I类错误的风险。实践中 $\alpha$ 通常由研究领域的惯例固定（如0.05），不随意调整。

效应量（Effect Size）：效应量指 $H_1$ 偏离 $H_0$ 的程度，在上式中体现为 $\mu_1 - \mu_0$ 。效应越大，两个分布在抽样分布图上分离越远，越容易被检测到——效能自然越高。例如若真实治疗效应使血压降低10mmHg而非2mmHg，在相同样本量下前者几乎必然被检测到。效应量由研究问题的实质决定，研究者无法操控，但必须合理估计——通常通过先验研究、元分析或最小临床重要差异（MCID）获取。

样本量 $n$ ：这是研究者最主动可控的因素。增大样本量会缩小标准误（标准误正比于 $1/\sqrt{n}$ ），使抽样分布更集中，从而让 $H_0$ 分布与 $H_1$ 分布的重叠区域缩小，效能随之提升。但样本量受限于时间、预算和伦理约束——在临床试验中过度招募受试者本身即不伦理。这引出了先验功效分析（priori power analysis）的必要性：在研究设计阶段确定达到目标效能所需的最小样本量。

总体变异度 $\sigma^2$ ：数据的内在变异性越大，信号越容易被噪声掩盖，效能越低。通过实验设计控制混杂因素、采用更精确的测量工具、或使用协变量调整（如ANCOVA）可以降低误差方差，从而间接提升效能。

功效分析与应用

功效分析（Power Analysis）分为三种类型：先验功效分析（给定 $\alpha$ 、目标效能和预期效应量，求最小 $n$ ）——这是实验设计的黄金标准，Jacob Cohen建议以0.80（即 $\beta = 0.20$ ）为目标效能，意味着研究者愿意接受最多20\%的概率错失真实效应；后验功效分析（post hoc，数据收集后计算实际效能），争议较大——批评者指出若结果已不显著，后验效能必然偏低，属于循环推理，APA等学会明确反对这种做法；敏感性分析（给定 $\alpha$ 、 $n$ 和效能，求可检测的最小效应量），在资源已固定的情况下帮助判断研究是否值得进行。

检验效能与p值存在对偶关系：p值越小可能意味着效能越强，但两者不可混淆——p值是"在 $H_0$ 为真时观察到现有结果的极端程度"，而效能是" $H_1$ 为真时获得显著结果的概率"，属于不同概率空间。过度依赖p值而忽视效能是可重复性危机的根源之一：低效能研究即使获得"显著"结果，其阳性预测值仍然很低，更可能是假阳性。

检验效能在临床试验设计中具有法理意义——FDA和EMA等监管机构要求III期临床试验必须基于功效分析确定样本量，确保足以检测临床上有意义的效应。在A/B测试、心理学实验、经济学实证研究和基因组-wide关联研究（GWAS，需多重检验校正后仍维持足够效能）中，功效分析同样是事前研究设计不可跳过的环节。常用功效分析软件包括G*Power、R语言的pwr包和Python的statsmodels。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。