ARTICLE
检验效能
检验效能 (Statistical Power) 检验效能(Statistical Power)是假设检验中一个核心概念,定义为当备择假设(H_1)为真时,检验正确拒绝原假设(H_0)的概率。在Neyman-Pearson框架下,假设检验面临两类错误——I类错误(Type I Error,弃真,概率记为 )与II类错误(Type II Error,存伪,概率
检验效能 (Statistical Power)
检验效能(Statistical Power)是假设检验中一个核心概念,定义为当备择假设()为真时,检验正确拒绝原假设()的概率。在Neyman-Pearson框架下,假设检验面临两类错误——I类错误(Type I Error,弃真,概率记为)与II类错误(Type II Error,存伪,概率记为)。检验效能即为,反映检验"发现真实效应"的能力。直观地讲,如果一个检验的效能很低,即使真实效应存在,研究者也很可能得出"不显著"的结论——这意味着研究资源的浪费,甚至可能阻碍科学进展。
数学定义与功效函数
形式上,检验效能定义为功效函数(Power Function)在备择假设参数空间上的取值。设为未知参数,检验的拒绝域为,则功效函数为,其中为检验统计量。当(原假设为真)时,,且理想情况下在边界处等于;当(备择假设为真)时,即为检验效能。一个"一致最优"的检验(UMP检验,Uniformly Most Powerful)应在所有上最大化。
以单样本检验为例: vs ,已知方差。在显著性水平下拒绝域为。若真实均值为,则检验效能为:
其中为标准正态分布的CDF,称为非中心参数(non-centrality parameter),度量了效应相对于标准误的大小。该公式清晰展示了效能与、效应量()、样本量和方差之间的定量关系。
影响检验效能的四大因素
显著性水平:放宽显著性水平(如从0.01提升至0.05)直接降低拒绝域的临界值,使检验更容易拒绝,从而提升效能。但这是一把双刃剑——提升同时增加了I类错误的风险。实践中通常由研究领域的惯例固定(如0.05),不随意调整。
效应量(Effect Size):效应量指偏离的程度,在上式中体现为。效应越大,两个分布在抽样分布图上分离越远,越容易被检测到——效能自然越高。例如若真实治疗效应使血压降低10mmHg而非2mmHg,在相同样本量下前者几乎必然被检测到。效应量由研究问题的实质决定,研究者无法操控,但必须合理估计——通常通过先验研究、元分析或最小临床重要差异(MCID)获取。
样本量:这是研究者最主动可控的因素。增大样本量会缩小标准误(标准误正比于),使抽样分布更集中,从而让分布与分布的重叠区域缩小,效能随之提升。但样本量受限于时间、预算和伦理约束——在临床试验中过度招募受试者本身即不伦理。这引出了先验功效分析(priori power analysis)的必要性:在研究设计阶段确定达到目标效能所需的最小样本量。
总体变异度:数据的内在变异性越大,信号越容易被噪声掩盖,效能越低。通过实验设计控制混杂因素、采用更精确的测量工具、或使用协变量调整(如ANCOVA)可以降低误差方差,从而间接提升效能。
功效分析与应用
功效分析(Power Analysis)分为三种类型:先验功效分析(给定、目标效能和预期效应量,求最小)——这是实验设计的黄金标准,Jacob Cohen建议以0.80(即)为目标效能,意味着研究者愿意接受最多20\%的概率错失真实效应;后验功效分析(post hoc,数据收集后计算实际效能),争议较大——批评者指出若结果已不显著,后验效能必然偏低,属于循环推理,APA等学会明确反对这种做法;敏感性分析(给定、和效能,求可检测的最小效应量),在资源已固定的情况下帮助判断研究是否值得进行。
检验效能与p值存在对偶关系:p值越小可能意味着效能越强,但两者不可混淆——p值是"在为真时观察到现有结果的极端程度",而效能是"为真时获得显著结果的概率",属于不同概率空间。过度依赖p值而忽视效能是可重复性危机的根源之一:低效能研究即使获得"显著"结果,其阳性预测值仍然很低,更可能是假阳性。
检验效能在临床试验设计中具有法理意义——FDA和EMA等监管机构要求III期临床试验必须基于功效分析确定样本量,确保足以检测临床上有意义的效应。在A/B测试、心理学实验、经济学实证研究和基因组-wide关联研究(GWAS,需多重检验校正后仍维持足够效能)中,功效分析同样是事前研究设计不可跳过的环节。常用功效分析软件包括G*Power、R语言的pwr包和Python的statsmodels。