ARTICLE

检验效能

检验效能 (Statistical Power) 检验效能(Statistical Power)是假设检验中一个核心概念,定义为当备择假设(H_1)为真时,检验正确拒绝原假设(H_0)的概率。在Neyman-Pearson框架下,假设检验面临两类错误——I类错误(Type I Error,弃真,概率记为 )与II类错误(Type II Error,存伪,概率

浏览 0 更新 2026-01-15

检验效能 (Statistical Power)

检验效能(Statistical Power)是假设检验中一个核心概念,定义为当备择假设H1H_1)为真时,检验正确拒绝原假设H0H_0)的概率。在Neyman-Pearson框架下,假设检验面临两类错误——I类错误(Type I Error,弃真,概率记为α\alpha)与II类错误(Type II Error,存伪,概率记为β\beta)。检验效能即为1β1 - \beta,反映检验"发现真实效应"的能力。直观地讲,如果一个检验的效能很低,即使真实效应存在,研究者也很可能得出"不显著"的结论——这意味着研究资源的浪费,甚至可能阻碍科学进展。

数学定义与功效函数

形式上,检验效能定义为功效函数(Power Function)在备择假设参数空间上的取值。设θ\theta为未知参数,检验的拒绝域为RR,则功效函数为π(θ)=Pθ(拒绝H0)=Pθ(TR)\pi(\theta) = P_{\theta}(\text{拒绝} H_0) = P_{\theta}(T \in R),其中TT检验统计量。当θΘ0\theta \in \Theta_0(原假设为真)时,π(θ)α\pi(\theta) \le \alpha,且理想情况下在边界处等于α\alpha;当θΘ1\theta \in \Theta_1(备择假设为真)时,π(θ)=1β(θ)\pi(\theta) = 1 - \beta(\theta)即为检验效能。一个"一致最优"的检验(UMP检验,Uniformly Most Powerful)应在所有θΘ1\theta \in \Theta_1上最大化π(θ)\pi(\theta)

以单样本zz检验为例:H0:μ=μ0H_0: \mu = \mu_0 vs H1:μ>μ0H_1: \mu > \mu_0,已知方差σ2\sigma^2。在显著性水平α\alpha下拒绝域为Xˉ>μ0+z1ασ/n\bar{X} > \mu_0 + z_{1-\alpha} \cdot \sigma/\sqrt{n}。若真实均值为μ1>μ0\mu_1 > \mu_0,则检验效能为:

π(μ1)=P(Xˉ>μ0+z1ασn  |  μ=μ1)=1Φ(z1αμ1μ0σ/n)\pi(\mu_1) = P\left(\bar{X} > \mu_0 + z_{1-\alpha} \frac{\sigma}{\sqrt{n}} \;\middle|\; \mu = \mu_1\right) = 1 - \Phi\left(z_{1-\alpha} - \frac{\mu_1 - \mu_0}{\sigma/\sqrt{n}}\right)

其中Φ\Phi标准正态分布的CDF,δ=(μ1μ0)/(σ/n)\delta = (\mu_1 - \mu_0)/(\sigma/\sqrt{n})称为非中心参数(non-centrality parameter),度量了效应相对于标准误的大小。该公式清晰展示了效能与α\alpha、效应量(μ1μ0\mu_1 - \mu_0)、样本量nn和方差σ2\sigma^2之间的定量关系。

影响检验效能的四大因素

显著性水平α\alpha:放宽显著性水平(如从0.01提升至0.05)直接降低拒绝域的临界值z1αz_{1-\alpha},使检验更容易拒绝H0H_0,从而提升效能。但这是一把双刃剑——提升α\alpha同时增加了I类错误的风险。实践中α\alpha通常由研究领域的惯例固定(如0.05),不随意调整。

效应量Effect Size):效应量指H1H_1偏离H0H_0的程度,在上式中体现为μ1μ0\mu_1 - \mu_0。效应越大,两个分布在抽样分布图上分离越远,越容易被检测到——效能自然越高。例如若真实治疗效应使血压降低10mmHg而非2mmHg,在相同样本量下前者几乎必然被检测到。效应量由研究问题的实质决定,研究者无法操控,但必须合理估计——通常通过先验研究元分析最小临床重要差异(MCID)获取。

样本量nn:这是研究者最主动可控的因素。增大样本量会缩小标准误(标准误正比于1/n1/\sqrt{n}),使抽样分布更集中,从而让H0H_0分布与H1H_1分布的重叠区域缩小,效能随之提升。但样本量受限于时间、预算和伦理约束——在临床试验中过度招募受试者本身即不伦理。这引出了先验功效分析(priori power analysis)的必要性:在研究设计阶段确定达到目标效能所需的最小样本量。

总体变异度σ2\sigma^2:数据的内在变异性越大,信号越容易被噪声掩盖,效能越低。通过实验设计控制混杂因素、采用更精确的测量工具、或使用协变量调整(如ANCOVA)可以降低误差方差,从而间接提升效能。

功效分析与应用

功效分析(Power Analysis)分为三种类型:先验功效分析(给定α\alpha、目标效能和预期效应量,求最小nn)——这是实验设计的黄金标准,Jacob Cohen建议以0.80(即β=0.20\beta = 0.20)为目标效能,意味着研究者愿意接受最多20\%的概率错失真实效应;后验功效分析(post hoc,数据收集后计算实际效能),争议较大——批评者指出若结果已不显著,后验效能必然偏低,属于循环推理,APA等学会明确反对这种做法;敏感性分析(给定α\alphann和效能,求可检测的最小效应量),在资源已固定的情况下帮助判断研究是否值得进行。

检验效能与p值存在对偶关系:p值越小可能意味着效能越强,但两者不可混淆——p值是"在H0H_0为真时观察到现有结果的极端程度",而效能是"H1H_1为真时获得显著结果的概率",属于不同概率空间。过度依赖p值而忽视效能是可重复性危机的根源之一:低效能研究即使获得"显著"结果,其阳性预测值仍然很低,更可能是假阳性

检验效能在临床试验设计中具有法理意义——FDAEMA等监管机构要求III期临床试验必须基于功效分析确定样本量,确保足以检测临床上有意义的效应。在A/B测试心理学实验经济学实证研究基因组-wide关联研究(GWAS,需多重检验校正后仍维持足够效能)中,功效分析同样是事前研究设计不可跳过的环节。常用功效分析软件包括G*Power、R语言的pwr包和Python的statsmodels