ARTICLE
方差分析 (Analysis of Variance, ANOVA)
方差分析 (Analysis of Variance, ANOVA) 方差分析(Analysis of Variance,简称ANOVA)是由英国统计学家罗纳德·费雪(Ronald A. Fisher)在20世纪20年代提出的一种统计方法,用于比较三个或三个以上总体的均值是否存在显著差异。尽管名称中有"方差"二字,ANOVA本质上是通过分析不同来源的方差(v
方差分析 (Analysis of Variance, ANOVA)
方差分析(Analysis of Variance,简称ANOVA)是由英国统计学家罗纳德·费雪(Ronald A. Fisher)在20世纪20年代提出的一种统计方法,用于比较三个或三个以上总体的均值是否存在显著差异。尽管名称中有"方差"二字,ANOVA本质上是通过分析不同来源的方差(variation)来检验均值之间的差异,其核心思想是将总变异分解为组间变异和组内变异两部分,然后通过比较这两部分变异的大小来判断分组因素是否具有统计显著性。
基本原理与假设
方差分析的逻辑起点为:如果各组均值确实不同,那么组间变异(各组均值偏离总均值的程度)应当远大于组内变异(各组内部个体的随机波动)。定义检验统计量F为组间均方与组内均方的比值:。在零假设(各组均值相等)成立的条件下,F统计量服从自由度为 的F分布,其中k为组数、N为总样本量。
方差分析依赖三项核心假设。正态性假设要求各组数据来自正态分布总体,违背该假设时可改用Kruskal-Wallis检验等非参数方法。方差齐性假设要求各组总体方差相等,可通过Levene检验或Bartlett检验进行验证。独立性假设要求观测之间相互独立,主要通过实验设计的随机化来保证。若方差齐性不满足,可考虑Welch's ANOVA作为修正方案。
主要类型
单因素方差分析(One-Way ANOVA)是最基本的形式,考察一个分类自变量(因素)对一个连续因变量的影响。其模型为 ,其中 为总体均值, 为第i组的处理效应, 为随机误差项。总变异分解为:
其中 ,。
双因素方差分析(Two-Way ANOVA)同时考察两个分类自变量的主效应以及它们的交互效应。模型为 ,总变异分解为A因素主效应、B因素主效应、交互效应和误差四个部分。交互效应的存在意味着一个因素的效果取决于另一个因素的水平,这是双因素分析最重要的信息增量。
重复测量方差分析(Repeated Measures ANOVA)适用于同一组受试者在多个时间点或多个条件下被重复测量的情形。该方法通过控制个体间差异来提高检验功效,但需额外满足球形假设,违反时可用Greenhouse-Geisser校正或Huynh-Feldt校正调整自由度。
事后比较与多重检验
若ANOVA结果显著(拒绝零假设),仅能得出"至少有一组均值不同"的结论,但无法指明哪些组之间存在差异,此时需要进行事后检验(Post Hoc Tests)。常用方法包括:
- Tukey's HSD检验:控制所有配对比较的族错误率,适用于各组样本量相等的情况。
- Bonferroni校正:将显著性水平 除以比较次数,方法保守但通用性强。
- Scheffé检验:适用于所有可能的线性对比,最为保守,适合探索性分析。
- Dunnett检验:专门用于将各个处理组与一个对照组进行比较。
多重比较带来的核心问题是族错误率(Family-Wise Error Rate, FWER)的膨胀:若进行m次独立的显著性水平为 的检验,至少犯一次第一类错误的概率为 ,远大于 。事后检验的主要目的即控制这一错误率。
与回归分析的关系
方差分析与线性回归分析本质上是同一线性模型框架下的两种分析视角。单因素ANOVA可视为因变量对一组虚拟变量(dummy variables)的回归,组均值等于对应的回归预测值。在更一般的框架中,方差分析可纳入连续型协变量,形成协方差分析(ANCOVA),同时处理分类因素和连续协变量对因变量的影响。这一统一性使得一般线性模型(GLM)成为涵盖方差分析、回归分析和协方差分析的理论基石。
方差分析在实验设计、农业科学、心理学和经济学的随机对照试验中发挥着基础性的统计推断作用,是定量研究中最广泛使用的统计工具之一。