ARTICLE

类内相关系数

类内相关系数 (Intraclass Correlation Coefficient) 类内相关系数(Intraclass Correlation Coefficient,简称 ICC)是衡量同一群体内部观测单元之间一致性或相似程度的统计量,广泛应用于评分者信度(Inter-rater Reliability)、重测信度(Test-retest Reliab

浏览 0 更新 2026-01-06

类内相关系数 (Intraclass Correlation Coefficient)

类内相关系数(Intraclass Correlation Coefficient,简称 ICC)是衡量同一群体内部观测单元之间一致性或相似程度的统计量,广泛应用于评分者信度(Inter-rater Reliability)、重测信度(Test-retest Reliability)以及群组随机试验(Cluster Randomized Trials)中的设计效应估计。与经典的皮尔逊相关系数(Pearson's r r )不同,ICC 不仅能评估两个评分者之间的一致性,还能同时处理三个或更多评分者的情境,并且能够区分系统性偏倚与随机误差——多重优势使其成为心理学、医学、运动科学及公共卫生等领域中"金标准"级别的信度指标。

ICC 的核心思想是利用方差分析(ANOVA)将观测值的总变异分解为组间变异(Between-group Variance)与组内变异(Within-group Variance),然后计算组间变异在总变异中所占的比例。直观而言,如果同一组内的多个测量值彼此高度相似(组内变异很小),而不同组之间的差异很大(组间变异很大),那么 ICC 趋近于 1,表明测量工具或评分体系具有极佳的区分能力和一致性;反之,如果组内变异接近甚至超过组间变异,ICC 趋近于 0,说明测量结果主要由随机误差支配,缺乏可靠性。

历史渊源与演变

类内相关系数的概念最早可追溯至罗纳德·费希尔(Ronald Fisher)在 1920 年代对组内相关性的开创性讨论。费希尔在 1925 年出版的《研究工作者的统计方法》(Statistical Methods for Research Workers)中首次引入了 ICC 的雏形,将其作为衡量家族内兄弟姐妹相似程度的工具。然而,真正将 ICC 系统化并推向社会科学应用的是 Shrout 和 Fleiss(1979)的里程碑式论文。他们区分了三种 ICC 模型——分别对应不同的评分者选取方式和推断范围——为后续三十余年的应用奠定了分类学基础。此后,McGraw 和 Wong(1996)进一步细化了 ICC 的命名体系,引入"一致性"(Consistency)与"绝对一致"(Absolute Agreement)的区分,形成了现代 ICC 报告的标准范式。

数学模型与方差分解

ICC 的数学定义建立在一元随机效应方差分析模型的框架之上。设 Yij Y_{ij} 为第 i i 个被试(i=1,2,,n i = 1, 2, \dots, n )的第 j j 次测量或第 j j 位评分者给出的观测值(j=1,2,,k j = 1, 2, \dots, k ),其线性分解为:

Yij=μ+ui+eijY_{ij} = \mu + u_i + e_{ij}

其中 μ \mu 为总体均值,uiN(0,σu2) u_i \sim \mathcal{N}(0, \sigma_u^2) 为被试的随机效应(即组间变异),eijN(0,σe2) e_{ij} \sim \mathcal{N}(0, \sigma_e^2) 为随机误差(即组内变异),且 ui u_i eij e_{ij} 相互独立。在此模型下,ICC 的最基本形式定义为组间方差占总方差的比例:

ICC=σu2σu2+σe2\text{ICC} = \frac{\sigma_u^2}{\sigma_u^2 + \sigma_e^2}

该定义直接体现了 ICC 的信度内涵:当测量误差 σe2 \sigma_e^2 很小时,分母主要由 σu2 \sigma_u^2 主导,ICC 趋近于 1;当 σe2 \sigma_e^2 远大于 σu2 \sigma_u^2 时,ICC 趋近于 0。在实际应用中,这些方差分量通过均方期望(Expected Mean Squares, EMS)从 ANOVA 表格中估算:

σ^u2=MSBMSWk,σ^e2=MSW\hat{\sigma}_u^2 = \frac{\text{MS}_B - \text{MS}_W}{k}, \quad \hat{\sigma}_e^2 = \text{MS}_W

其中 MSB \text{MS}_B 为组间均方,MSW \text{MS}_W 为组内均方。如果 MSB<MSW \text{MS}_B < \text{MS}_W ,则 σ^u2 \hat{\sigma}_u^2 可能为负,此时通常将其截断为零,ICCs 取 0。

ICC 的分类体系

ICC 并非一个单一指标,而是一个统计量族。Shrout 和 Fleiss(1979)以及 McGraw 和 Wong(1996)确立了基于三个维度交叉分类的命名体系:

  1. 模型(Model):决定评分者效应是随机效应还是固定效应。 \begin{itemize}
  2. 单向随机模型(One-way Random):每个被试由不同的评分者随机评定,评分者效应不被单独建模。此时无法分离评分者系统偏倚的影响。该模型适用于评分者完全不重叠的场景——例如每个诊所由不同的评估者独立诊断患者,评估者之间无一一对应关系。
  3. 双向随机模型(Two-way Random):评分者从更大的评分者总体中随机抽样,评分者效应被视作另一个随机效应。该模型允许将结论推广至所有评分者,适用于评分者信度的可推广性研究。
  4. 双向混合模型(Two-way Mixed):评分者是固定的一组成员(即当前研究中的所有评分者就构成全部感兴趣的总体),评分者效应为固定效应。该模型下结论不能推广至其他评分者,仅适用于对当前评分者组一致性的描述。 \end{itemize}
  5. 类型(Type):决定关注"一致性"还是"绝对一致"。 \begin{itemize}
  6. 一致性(Consistency):允许评分者之间存在系统性的加性偏倚(即允许一位评分者普遍比另一位评分者打分高或低一个常数)。此时只关心评分者排序的一致性,不要求绝对数值相同。在数学上,评分者方差不被计入误差项。
  7. 绝对一致(Absolute Agreement):不允许任何形式的系统性偏倚,要求评分者不但排序一致,而且给出完全相同的具体数值。此时评分者方差被计入分母的误差项,标准更为严格。 \end{itemize}
  8. 单位(Unit):决定 ICC 是针对单次测量(Single Measure)还是多次测量的平均值(Average Measure)。单次测量 ICC 反映单个评分者评定或单次测量的信度预期;平均测量 ICC 则反映 k k 个评分者均值或 k k 次测量均值的信度。由斯皮尔曼-布朗预言公式(Spearman-Brown Prophecy Formula)可知,将 k k 次测量取平均后,信度较单次测量有所提升。

McGraw 和 Wong 以 ICC(m m , t t ) 的记法统一了这一体系,其中 m m 代表模型(1 = 单向随机,2 = 双向随机,3 = 双向混合),t t 代表类型(k k = 单次一致性,k k' = 平均一致性,A,k A,k = 单次绝对一致,A,k A,k' = 平均绝对一致)。例如,ICC(3,1) 表示双向混合模型下单次测量的一致性估计,这也是实际应用中最常报告的 ICC 变体之一。

解释标准与阈值

ICC 的取值范围理论上是 0 到 1(实践中可能因估计方法不同而出现微小负值)。关于 ICC 的定性解释标准,文献中存在多套并存的分级方案。Koo 和 Li(2016)综合前人研究后推荐的阈值为:ICC <0.50 < 0.50 表示信度差(Poor);0.50 至 0.75 表示信度中等(Moderate);0.75 至 0.90 表示信度好(Good);ICC >0.90 > 0.90 表示信度极佳(Excellent)。在临床测量领域,通常要求 ICC 0.75 \geq 0.75 方可认为测量工具具有充分信度,而对于高风险的个体决策场景(如手术资格判定),ICC 阈值往往被提高至 0.90 以上。Cicchetti(1994)和 Landis 与 Koch(1977)的分级方案也常被引用,尽管各方案之间存在细微差别,但 0.75 作为一个关键分界点在大多数领域具有共识。

需要特别指出的是,ICC 的"高"或"低"是学科和场景依赖的。在群组随机试验中,主要结局变量的 ICC 通常在 0.01 至 0.05 之间——即便如此微小的组内相关,也足以使设计效应的膨胀不可忽略,必须在样本量计算中予以校正。同样,在行为遗传学中,同卵双生子的 ICC 与异卵双生子的 ICC 之间的对比是计算遗传力的基础。

置信区间与统计推断

ICC 的点估计受样本量影响较大,报告其置信区间(Confidence Interval)是当前的学科规范。ICC 的置信区间通常基于 F F 分布构建,利用 MSB/MSW \text{MS}_B / \text{MS}_W 在原假设(ICC =0 = 0 )下服从 F F 分布的性质。具体而言,令 F=MSB/MSW F = \text{MS}_B / \text{MS}_W ,其服从 F(n1,n(k1)) F(n-1, n(k-1)) 分布,那么单次测量 ICC 的 100(1α)% 100(1 - \alpha)\% 置信下限和上限由下式给出:

CI下限=F/Fα/2,df1,df21k+(F/Fα/2,df1,df21),CI上限=F/F1α/2,df1,df21k+(F/F1α/2,df1,df21)\text{CI}_{\text{下限}} = \frac{F / F_{\alpha/2, df_1, df_2} - 1}{k + (F / F_{\alpha/2, df_1, df_2} - 1)}, \quad \text{CI}_{\text{上限}} = \frac{F / F_{1-\alpha/2, df_1, df_2} - 1}{k + (F / F_{1-\alpha/2, df_1, df_2} - 1)}

其中 df1=n1 df_1 = n-1 df2=n(k1) df_2 = n(k-1) 。对于双向随机模型下的绝对一致 ICC,置信区间的构建更为复杂,需要依赖Satterthwaite 近似或 bootstrap 重抽样方法。当评分者数量 k k 较小或样本量 n n 不足时,ICC 的置信区间可能非常宽——例如点估计 0.80 的 ICC,其 95\% 置信区间可能跨度为 0.55 至 0.92,对结论的稳健性构成挑战。因此在报告 ICC 时,同时提供置信区间已成为学术出版的基本要求。

与其他信度指标的对比

ICC 与若干相似但不等价的信度指标之间的区分是实务中的常见困惑。皮尔逊相关系数 r r 衡量的是两个变量之间的线性关联强度,但无法检测评分者之间的系统性偏倚——例如,若评分者 A 始终比评分者 B 多打 10 分,r r 仍可为 1.0,而绝对一致的 ICC 将显著低于 1.0。Cohen's Kappa 用于分类数据的一致性评估,是 ICC 在名义尺度上的对应物,但其自身受患病率悖论(Prevalence Paradox)的影响——在类别分布极不均衡时,即使一致性很高,Kappa 也可能很低。Cronbach's Alpha 在本质上等价于双向混合模型下的平均测量一致性 ICC(3,k k' ),常用于多项目量表的内部一致性信度,但一般不用于不同时间点或不同评分者之间的信度评估。

应用场景与报告规范

ICC 的核心应用覆盖三个主要领域。其一为评分者信度研究:研究者招募多位评分者对同一批被试的影像、访谈录音或临床量表进行独立判断,通过 ICC 量化评分者之间的一致程度,以确保主观评定的客观性。其二为重测信度研究:对同一组被试在不同时间点使用同一测量工具进行重复测量,ICC 反映了该工具时间维度上的稳定性。其三为群组随机试验的样本量设计:在此类试验中,随机化的单位是群组(如班级、社区、诊所)而非个体,群内个体之间的 ICC 被用于计算设计效应(Design Effect),从而将个体随机化所需的样本量适当膨胀。

在研究报告撰写方面,Koo 和 Li(2016)以及近年医学期刊的GRRAS 指南(Guidelines for Reporting Reliability and Agreement Studies)均建议:论文中必须明确说明所使用的 ICC 具体模型、类型和单位,报告点估计及其 95\% 置信区间,展示方差分量的 ANOVA 表格,并依据学科惯例提供信度分级解释。仅笼统地宣称"ICC =0.82 = 0.82 "而不说明是何种 ICC,已逐渐被视为不充分甚至可能产生误导的报告方式。

局限与注意事项

尽管 ICC 是评估连续数据信度的有力工具,其应用需警惕若干陷阱。首先,ICC 高度依赖样本的异质性——组间变异的方差分量直接反映样本中个体差异的大小。在异质性高的样本(如同时纳入健康人群与重病患者)中,ICC 会被人为地夸大,因为 σu2 \sigma_u^2 被拉大,分母增大速度慢于分子;反之,在高度同质的样本中,ICC 可能因组间变异不足而偏低。因此,不同研究间 ICC 的比较必须基于相似的总体特征。其次,ICC 对数据缺失和评分者不完全交叉设计(即并非所有评分者评定所有被试)敏感,此时需要借助线性混合模型(Linear Mixed Model)或广义估计方程(GEE)进行方差分量估计,传统的 ANOVA 方法不再适用。最后,ICC 假设数据满足正态性和方差齐性,当数据严重违反正态分布假设时,可考虑对数据进行适当变换(如对数变换),或使用基于秩次的非参数 ICC 变体。