ARTICLE

类内相关系数

类内相关系数 (Intraclass Correlation Coefficient) 类内相关系数（Intraclass Correlation Coefficient，简称 ICC）是衡量同一群体内部观测单元之间一致性或相似程度的统计量，广泛应用于评分者信度（Inter-rater Reliability）、重测信度（Test-retest Reliab

浏览 0 更新 2026-01-06

类内相关系数 (Intraclass Correlation Coefficient)

类内相关系数（Intraclass Correlation Coefficient，简称 ICC）是衡量同一群体内部观测单元之间一致性或相似程度的统计量，广泛应用于评分者信度（Inter-rater Reliability）、重测信度（Test-retest Reliability）以及群组随机试验（Cluster Randomized Trials）中的设计效应估计。与经典的皮尔逊相关系数（Pearson's $r$ ）不同，ICC 不仅能评估两个评分者之间的一致性，还能同时处理三个或更多评分者的情境，并且能够区分系统性偏倚与随机误差——多重优势使其成为心理学、医学、运动科学及公共卫生等领域中"金标准"级别的信度指标。

ICC 的核心思想是利用方差分析（ANOVA）将观测值的总变异分解为组间变异（Between-group Variance）与组内变异（Within-group Variance），然后计算组间变异在总变异中所占的比例。直观而言，如果同一组内的多个测量值彼此高度相似（组内变异很小），而不同组之间的差异很大（组间变异很大），那么 ICC 趋近于 1，表明测量工具或评分体系具有极佳的区分能力和一致性；反之，如果组内变异接近甚至超过组间变异，ICC 趋近于 0，说明测量结果主要由随机误差支配，缺乏可靠性。

历史渊源与演变

类内相关系数的概念最早可追溯至罗纳德·费希尔（Ronald Fisher）在 1920 年代对组内相关性的开创性讨论。费希尔在 1925 年出版的《研究工作者的统计方法》（Statistical Methods for Research Workers）中首次引入了 ICC 的雏形，将其作为衡量家族内兄弟姐妹相似程度的工具。然而，真正将 ICC 系统化并推向社会科学应用的是 Shrout 和 Fleiss（1979）的里程碑式论文。他们区分了三种 ICC 模型——分别对应不同的评分者选取方式和推断范围——为后续三十余年的应用奠定了分类学基础。此后，McGraw 和 Wong（1996）进一步细化了 ICC 的命名体系，引入"一致性"（Consistency）与"绝对一致"（Absolute Agreement）的区分，形成了现代 ICC 报告的标准范式。

数学模型与方差分解

ICC 的数学定义建立在一元随机效应方差分析模型的框架之上。设 $Y_{ij}$ 为第 $i$ 个被试（ $i = 1, 2, \dots, n$ ）的第 $j$ 次测量或第 $j$ 位评分者给出的观测值（ $j = 1, 2, \dots, k$ ），其线性分解为：

Y_{ij} = \mu + u_i + e_{ij}

其中 $\mu$ 为总体均值， $u_i \sim \mathcal{N}(0, \sigma_u^2)$ 为被试的随机效应（即组间变异）， $e_{ij} \sim \mathcal{N}(0, \sigma_e^2)$ 为随机误差（即组内变异），且 $u_i$ 与 $e_{ij}$ 相互独立。在此模型下，ICC 的最基本形式定义为组间方差占总方差的比例：

\text{ICC} = \frac{\sigma_u^2}{\sigma_u^2 + \sigma_e^2}

该定义直接体现了 ICC 的信度内涵：当测量误差 $\sigma_e^2$ 很小时，分母主要由 $\sigma_u^2$ 主导，ICC 趋近于 1；当 $\sigma_e^2$ 远大于 $\sigma_u^2$ 时，ICC 趋近于 0。在实际应用中，这些方差分量通过均方期望（Expected Mean Squares, EMS）从 ANOVA 表格中估算：

\hat{\sigma}_u^2 = \frac{\text{MS}_B - \text{MS}_W}{k}, \quad \hat{\sigma}_e^2 = \text{MS}_W

其中 $\text{MS}_B$ 为组间均方， $\text{MS}_W$ 为组内均方。如果 $\text{MS}_B < \text{MS}_W$ ，则 $\hat{\sigma}_u^2$ 可能为负，此时通常将其截断为零，ICCs 取 0。

ICC 的分类体系

ICC 并非一个单一指标，而是一个统计量族。Shrout 和 Fleiss（1979）以及 McGraw 和 Wong（1996）确立了基于三个维度交叉分类的命名体系：

模型（Model）：决定评分者效应是随机效应还是固定效应。 \begin{itemize}
单向随机模型（One-way Random）：每个被试由不同的评分者随机评定，评分者效应不被单独建模。此时无法分离评分者系统偏倚的影响。该模型适用于评分者完全不重叠的场景——例如每个诊所由不同的评估者独立诊断患者，评估者之间无一一对应关系。
双向随机模型（Two-way Random）：评分者从更大的评分者总体中随机抽样，评分者效应被视作另一个随机效应。该模型允许将结论推广至所有评分者，适用于评分者信度的可推广性研究。
双向混合模型（Two-way Mixed）：评分者是固定的一组成员（即当前研究中的所有评分者就构成全部感兴趣的总体），评分者效应为固定效应。该模型下结论不能推广至其他评分者，仅适用于对当前评分者组一致性的描述。 \end{itemize}
类型（Type）：决定关注"一致性"还是"绝对一致"。 \begin{itemize}
一致性（Consistency）：允许评分者之间存在系统性的加性偏倚（即允许一位评分者普遍比另一位评分者打分高或低一个常数）。此时只关心评分者排序的一致性，不要求绝对数值相同。在数学上，评分者方差不被计入误差项。
绝对一致（Absolute Agreement）：不允许任何形式的系统性偏倚，要求评分者不但排序一致，而且给出完全相同的具体数值。此时评分者方差被计入分母的误差项，标准更为严格。 \end{itemize}
单位（Unit）：决定 ICC 是针对单次测量（Single Measure）还是多次测量的平均值（Average Measure）。单次测量 ICC 反映单个评分者评定或单次测量的信度预期；平均测量 ICC 则反映 $k$ 个评分者均值或 $k$ 次测量均值的信度。由斯皮尔曼-布朗预言公式（Spearman-Brown Prophecy Formula）可知，将 $k$ 次测量取平均后，信度较单次测量有所提升。

McGraw 和 Wong 以 ICC( $m$ , $t$ ) 的记法统一了这一体系，其中 $m$ 代表模型（1 = 单向随机，2 = 双向随机，3 = 双向混合）， $t$ 代表类型（ $k$ = 单次一致性， $k'$ = 平均一致性， $A,k$ = 单次绝对一致， $A,k'$ = 平均绝对一致）。例如，ICC(3,1) 表示双向混合模型下单次测量的一致性估计，这也是实际应用中最常报告的 ICC 变体之一。

解释标准与阈值

ICC 的取值范围理论上是 0 到 1（实践中可能因估计方法不同而出现微小负值）。关于 ICC 的定性解释标准，文献中存在多套并存的分级方案。Koo 和 Li（2016）综合前人研究后推荐的阈值为：ICC $< 0.50$ 表示信度差（Poor）；0.50 至 0.75 表示信度中等（Moderate）；0.75 至 0.90 表示信度好（Good）；ICC $> 0.90$ 表示信度极佳（Excellent）。在临床测量领域，通常要求 ICC $\geq 0.75$ 方可认为测量工具具有充分信度，而对于高风险的个体决策场景（如手术资格判定），ICC 阈值往往被提高至 0.90 以上。Cicchetti（1994）和 Landis 与 Koch（1977）的分级方案也常被引用，尽管各方案之间存在细微差别，但 0.75 作为一个关键分界点在大多数领域具有共识。

需要特别指出的是，ICC 的"高"或"低"是学科和场景依赖的。在群组随机试验中，主要结局变量的 ICC 通常在 0.01 至 0.05 之间——即便如此微小的组内相关，也足以使设计效应的膨胀不可忽略，必须在样本量计算中予以校正。同样，在行为遗传学中，同卵双生子的 ICC 与异卵双生子的 ICC 之间的对比是计算遗传力的基础。

置信区间与统计推断

ICC 的点估计受样本量影响较大，报告其置信区间（Confidence Interval）是当前的学科规范。ICC 的置信区间通常基于 $F$ 分布构建，利用 $\text{MS}_B / \text{MS}_W$ 在原假设（ICC $= 0$ ）下服从 $F$ 分布的性质。具体而言，令 $F = \text{MS}_B / \text{MS}_W$ ，其服从 $F(n-1, n(k-1))$ 分布，那么单次测量 ICC 的 $100(1 - \alpha)\%$ 置信下限和上限由下式给出：

\text{CI}_{\text{下限}} = \frac{F / F_{\alpha/2, df_1, df_2} - 1}{k + (F / F_{\alpha/2, df_1, df_2} - 1)}, \quad \text{CI}_{\text{上限}} = \frac{F / F_{1-\alpha/2, df_1, df_2} - 1}{k + (F / F_{1-\alpha/2, df_1, df_2} - 1)}

其中 $df_1 = n-1$ ， $df_2 = n(k-1)$ 。对于双向随机模型下的绝对一致 ICC，置信区间的构建更为复杂，需要依赖Satterthwaite 近似或 bootstrap 重抽样方法。当评分者数量 $k$ 较小或样本量 $n$ 不足时，ICC 的置信区间可能非常宽——例如点估计 0.80 的 ICC，其 95\% 置信区间可能跨度为 0.55 至 0.92，对结论的稳健性构成挑战。因此在报告 ICC 时，同时提供置信区间已成为学术出版的基本要求。

与其他信度指标的对比

ICC 与若干相似但不等价的信度指标之间的区分是实务中的常见困惑。皮尔逊相关系数 $r$ 衡量的是两个变量之间的线性关联强度，但无法检测评分者之间的系统性偏倚——例如，若评分者 A 始终比评分者 B 多打 10 分， $r$ 仍可为 1.0，而绝对一致的 ICC 将显著低于 1.0。Cohen's Kappa 用于分类数据的一致性评估，是 ICC 在名义尺度上的对应物，但其自身受患病率悖论（Prevalence Paradox）的影响——在类别分布极不均衡时，即使一致性很高，Kappa 也可能很低。Cronbach's Alpha 在本质上等价于双向混合模型下的平均测量一致性 ICC(3, $k'$ )，常用于多项目量表的内部一致性信度，但一般不用于不同时间点或不同评分者之间的信度评估。

应用场景与报告规范

ICC 的核心应用覆盖三个主要领域。其一为评分者信度研究：研究者招募多位评分者对同一批被试的影像、访谈录音或临床量表进行独立判断，通过 ICC 量化评分者之间的一致程度，以确保主观评定的客观性。其二为重测信度研究：对同一组被试在不同时间点使用同一测量工具进行重复测量，ICC 反映了该工具时间维度上的稳定性。其三为群组随机试验的样本量设计：在此类试验中，随机化的单位是群组（如班级、社区、诊所）而非个体，群内个体之间的 ICC 被用于计算设计效应（Design Effect），从而将个体随机化所需的样本量适当膨胀。

在研究报告撰写方面，Koo 和 Li（2016）以及近年医学期刊的GRRAS 指南（Guidelines for Reporting Reliability and Agreement Studies）均建议：论文中必须明确说明所使用的 ICC 具体模型、类型和单位，报告点估计及其 95\% 置信区间，展示方差分量的 ANOVA 表格，并依据学科惯例提供信度分级解释。仅笼统地宣称"ICC $= 0.82$ "而不说明是何种 ICC，已逐渐被视为不充分甚至可能产生误导的报告方式。

局限与注意事项

尽管 ICC 是评估连续数据信度的有力工具，其应用需警惕若干陷阱。首先，ICC 高度依赖样本的异质性——组间变异的方差分量直接反映样本中个体差异的大小。在异质性高的样本（如同时纳入健康人群与重病患者）中，ICC 会被人为地夸大，因为 $\sigma_u^2$ 被拉大，分母增大速度慢于分子；反之，在高度同质的样本中，ICC 可能因组间变异不足而偏低。因此，不同研究间 ICC 的比较必须基于相似的总体特征。其次，ICC 对数据缺失和评分者不完全交叉设计（即并非所有评分者评定所有被试）敏感，此时需要借助线性混合模型（Linear Mixed Model）或广义估计方程（GEE）进行方差分量估计，传统的 ANOVA 方法不再适用。最后，ICC 假设数据满足正态性和方差齐性，当数据严重违反正态分布假设时，可考虑对数据进行适当变换（如对数变换），或使用基于秩次的非参数 ICC 变体。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。