ARTICLE
频率派推断
频率派推断 (Frequentist Inference) 频率派推断(Frequentist Inference)是统计推断的两大范式之一,与贝叶斯推断相对而立。其核心主张是:概率被解释为无限次重复试验中事件发生的相对频率的极限——概率是客观世界的一种物理属性,而非主观信念的度量。频率派框架由Ronald Fisher、Jerzy Neyman和Egon
频率派推断 (Frequentist Inference)
频率派推断(Frequentist Inference)是统计推断的两大范式之一,与贝叶斯推断相对而立。其核心主张是:概率被解释为无限次重复试验中事件发生的相对频率的极限——概率是客观世界的一种物理属性,而非主观信念的度量。频率派框架由Ronald Fisher、Jerzy Neyman和Egon Pearson等人在20世纪上半叶系统建立,至今仍是自然科学、医学、经济学等实证研究中最主流的推断方法论。频率派推断的三个支柱是:点估计、假设检验与置信区间。
哲学基础:概率的频率解释
频率派的核心哲学立场是:未知参数 是固定的常数(尽管未知),而非随机变量。数据 被视为来自某个以 为参数的分布 的随机样本。所有概率陈述都指向数据生成过程的长期行为——一个估计量的"置信区间"以95\%的概率覆盖真值,意为:若无限次重复抽样并计算区间,其中95\%的区间会包含真值。这与贝叶斯学派"参数本身有95\%概率落在区间内"的解释有本质区别。
频率派拒绝为参数赋予先验分布。这一拒绝既出于客观性的追求——科学结论应当独立于研究者的主观信念,也源于概率的频率定义自身的逻辑一致性:若将概率定义为长期频率,则一次性事件(如"这个假设为真")没有频率属性,因此不能谈论其概率。
估计理论
最大似然估计(MLE)是频率派估计理论的基石。给定数据 ,MLE 选择使观察到这些数据的概率最大化的参数值:
MLE 具有优良的大样本性质:在正则条件下,MLE 是一致的(随样本增大收敛于真值)且渐近正态的(抽样分布逼近正态),并在所有渐近无偏估计量中达到最小的方差——即Cramér-Rao下界。这些性质使 MLE 成为频率派工具箱中最核心的估计方法。
此外,矩估计法(Method of Moments)是另一类基本方法:用样本矩替代总体矩,反解出参数估计。尽管在大样本中效率通常低于 MLE,矩估计计算简便且无需指定完整分布形式,在计量经济学中的广义矩估计(GMM)中发扬光大。
频率派评估估计量优劣的标准包括:无偏性(期望等于真值)、一致性(概率收敛于真值)、有效性(方差最小)和均方误差(平衡偏差与方差)。这些标准不依赖于任何先验分布,是对估计量"长期表现"的频率主义评价。
假设检验:Neyman-Pearson 框架
假设检验是频率派推断最具影响力的方法论贡献。Neyman-Pearson 框架将决策问题形式化为原假设 与备择假设 之间的选择,并定义了两种错误:第 I 类错误(,错误拒绝真 )和第 II 类错误(,错误接受假 )。检验的功效()是在 为真时正确拒绝 的概率。
Fisher 提出的p 值——在原假设为真的条件下,观察到当前或更极端数据的概率——提供了另一种不以"接受 "为目标的统计推断方式。尽管 p 值在实践中被广泛使用,其含义常遭误读:p 值不是" 为真的概率",而仅是对数据偏离程度的一种度量。
频率派假设检验的严格决策逻辑是:在重复抽样中,将第 I 类错误率控制在预设水平 以下。这意味着一次实验的"显著"或"不显著"结论,必须被理解为该决策规则在长期中的频率性质,而非对单个假设真伪的概率判断。
置信区间
置信区间是频率派推断的第三个支柱。一个 的置信区间定义为:在重复抽样下,该区间覆盖真值 的比例为 。其构造通常基于枢轴量(pivotal quantity)的分布,如正态均值推断中的 统计量。置信区间与假设检验的对偶关系意味着:区间包含 当且仅当双侧检验在水平 上不拒绝 。
与贝叶斯推断的比较
频率派与贝叶斯的根本分歧在于三个层面:概率的定义(客观频率 vs. 主观信念)、参数的本质(固定常数 vs. 随机变量)和条件化的方式(仅基于数据 vs. 结合先验)。
频率派的优势在于客观性与稳健性——结论不依赖于先验的选择,这在高风险决策(如新药审批)中尤为重要。其代价包括:小样本下表现可能不佳、无法自然地融入已有知识,以及对"置信区间"的解释常与大众直觉相悖。现代应用统计学中,频率派与贝叶斯方法日趋融合——例如经验贝叶斯用频率方法估计先验,而频率派工具箱(如Bootstrap和交叉验证)也吸收了计算贝叶斯的思想。两种范式的互补而非对立,已成为当代统计学的共识。