ARTICLE

功效

功效 (Power) 功效(Power),在统计学中,特指在假设检验的框架下,当备择假设H_1实际上为真时,我们能够正确地拒绝原假设H_0的概率。换言之,功效衡量了一个统计检验侦测到一个真实存在之效应、差异或关系的能力。功效通常用1 - 表示,其中 是II类错误的概率。数学上功效定义为: 一个低功效的统计检验就像一个不灵敏的诊断工具。即使效应真实存在,这个检

浏览 7 更新 2025-11-02

功效 (Power)

功效(Power),在统计学中,特指在假设检验的框架下,当备择假设H1H_1实际上为真时,我们能够正确地拒绝原假设H0H_0概率。换言之,功效衡量了一个统计检验侦测到一个真实存在之效应、差异或关系的能力。功效通常用1β1 - \beta表示,其中β\betaII类错误的概率。数学上功效定义为:

Power=P(拒绝 H0H1 为真)=1β\text{Power} = P(\text{拒绝 } H_0 \mid H_1 \text{ 为真}) = 1 - \beta

一个低功效的统计检验就像一个不灵敏的诊断工具。即使效应真实存在,这个检验也很可能无法侦测到它,从而得出"无显著差异"的错误结论。这不仅可能导致有价值的发现被忽略,还会造成研究资源的浪费。因此,在设计实验或研究时,确保检验具有足够高的功效是至关重要的。

影响功效的四大要素

统计功效主要受以下四个相互关联的因素影响。

效应量(Effect Size)。效应量是指总体中存在的效应、差异或关系的真实幅度。效应量越大,该效应就越容易被侦测到,从而使得统计检验的功效越高。一个微小、不易察觉的效应需要一个非常高功效的检验才能被侦测到。

样本量。在其他条件不变的情况下,样本量越大,功效越高。这是因为更大的样本能提供更多关于总体的信息,从而减少了抽样误差,使得样本统计量能更精确地估计总体参数。这种精确性的提高,使得在真实效应存在时我们更容易将其与随机波动区分开来。

显著性水平α\alpha显著性水平是我们愿意承担的I类错误的风险上限,通常设定为0.05或0.01。在其他条件不变的情况下,一个更宽松(更大)的α\alpha值会使拒绝H0H_0变得更容易,从而提高功效。然而,这样做是以增加犯I类错误的风险为代价的。因此,在α\alphaβ\beta之间存在一种权衡关系。

检验的统计特性。如果研究者对效应的方向有明确的先验预期,使用单尾检验会比双尾检验具有更高的功效,因为拒绝域完全集中在分布的一侧。当数据满足正态分布等假设时,参数检验(如t检验)通常比非参数检验具有更高的功效。

功效分析及其应用

功效分析是在研究设计、执行和解释阶段,围绕上述四个要素进行的定量分析。主要包括以下类型:

事前功效分析(A Priori Power Analysis)是功效分析最重要和最常见的应用,于数据收集之前进行。其目的是为了计算出在给定的α\alpha、预期的效应量和期望的功效水平下,研究需要达到的最小样本量。例如,一个研究者希望有80\%的把握(功效 = 0.80)能够检测到一个中等大小的效应(如科恩的d = 0.5),并在α=0.05\alpha = 0.05的显著性水平下进行双尾t检验。通过事前功效分析,可以计算出每组需要招募的被试数量,从而确保研究不会因为样本量不足而导致功效过低。

事后功效分析(Post Hoc Power Analysis)于数据收集之后进行,通常在研究结果不显著时使用。它利用研究中实际获得的样本量、α\alpha水平和观察到的效应量来计算该研究的"事后功效"。然而,这种做法在统计学界存在很大争议。批评者认为,对于一个不显著的结果,事后功效并不能提供比p值置信区间更多的信息。目前的主流观点更推荐报告效应量的置信区间,它可以展示估计值的精确度以及可能包含零效应。

实践中的标准与考量

在社会科学、医学和行为科学等领域,一个被广泛接受的最低功效标准是80\%(即1β=0.801 - \beta = 0.80)。这意味着研究者接受有20\%的概率会错过一个真实存在的效应(犯II类错误)。这个80\%的标准并非绝对,它源于一种惯例,即认为I类错误(假阳性)的后果比II类错误(假阴性)更严重。因此人们愿意将α\alpha控制在一个很低的水平(如0.05),而接受一个相对较高的β\beta(0.20)。这种1:4的风险比率由统计学家雅各布·科恩推广,并成为一种学术惯例。

然而在某些情况下,研究者可能需要更高的功效。例如,在一项评估某种潜在救命药物有效性的临床试验中,错失一个真实的疗效可能会导致灾难性的公共卫生后果。在这种情况下,将目标功效设定为90\%或95\%会是更负责任的选择。