ARTICLE

项目反应理论

项目反应理论 (Item Response Theory) 项目反应理论 (Item Response Theory, IRT),又称潜在特质理论 (Latent Trait Theory),是一种现代心理测量学理论,用于设计、分析和评估测验、量表及问卷。与传统的经典测验理论 (Classical Test Theory, CTT) 不同,IRT通过数学模型

浏览 0 更新 2026-01-11

项目反应理论 (Item Response Theory)

项目反应理论 (Item Response Theory, IRT),又称潜在特质理论 (Latent Trait Theory),是一种现代心理测量学理论,用于设计、分析和评估测验、量表及问卷。与传统的经典测验理论 (Classical Test Theory, CTT) 不同,IRT通过数学模型描述受试者的潜在能力与他们在测验项目上的反应之间的关系,从而在项目层面实现更为精细化的测量。IRT起源于二十世纪五十年代,由弗里德里克·洛德 (Frederic Lord) 和乔治·拉什 (Georg Rasch) 等人奠基,经过数十年的发展,现已成为教育和心理测量领域的主流范式。

理论基础与核心假设

IRT的核心前提是:受试者在测验项目上的表现取决于其潜在特质 (Latent Trait),通常记作θ\theta。这一潜在特质无法直接观测,但通过受试者对项目的反应模式可以间接推断出来。IRT的理论大厦建立在以下基本假设之上:

单维性假设 (Unidimensionality):所有测验项目测量的是同一种潜在特质。这是大多数IRT模型最核心的假设。当测验明确涉及多种能力(如数学和语文)时,可采用多维项目反应理论 (Multidimensional IRT, MIRT) 加以处理。单维性假设可通过主成分分析探索性因素分析进行检验。

局部独立性假设 (Local Independence):在控制潜在特质θ\theta的条件下,受试者对各个项目的反应在统计上是相互独立的。这意味着项目的反应模式完全由θ\theta解释,项目之间不存在额外的关联。如果局部独立性被违反,则可能表明存在项目捆绑效应或测验存在其他维度结构。

项目特征曲线 (Item Characteristic Curve, ICC):每个项目都有一条单调递增的S形曲线,描述受试者正确回答该项目的概率随其能力θ\theta变化的函数关系。ICC是IRT模型最直观的图形表示,其形状完全由项目参数决定。

经典IRT模型

IRT模型根据项目类型和参数数量可分为多个类别,其中逻辑斯蒂模型 (Logistic Model) 是最为常用的模型族。与早期的正态卵形模型 (Normal Ogive Model) 相比,逻辑斯蒂模型在数学上更为简洁且计算更为便利。

单参数逻辑斯蒂模型 (1PL / Rasch模型):仅包含难度参数 (Difficulty Parameter, bib_i),其数学形式为:

P(Xi=1θ)=e(θbi)1+e(θbi)P(X_i = 1 \mid \theta) = \frac{e^{(\theta - b_i)}}{1 + e^{(\theta - b_i)}}

其中P(Xi=1θ)P(X_i = 1 \mid \theta)表示能力为θ\theta的受试者在项目ii上正确作答的概率,bib_i为项目的难度参数。Rasch模型以其独特的统计性质而著称:在数据拟合Rasch模型的条件下,受试者的原始总分是θ\theta的充分统计量。这意味着排名相同的受试者具有相同的能力估计,与具体作答模式无关。

双参数逻辑斯蒂模型 (2PL):在1PL基础上引入区分度参数 (Discrimination Parameter, aia_i),使得不同项目对受试者能力的区分能力不同:

P(Xi=1θ)=eai(θbi)1+eai(θbi)P(X_i = 1 \mid \theta) = \frac{e^{a_i(\theta - b_i)}}{1 + e^{a_i(\theta - b_i)}}

区分度参数aia_i决定了ICC在拐点处的斜率:aia_i越大,项目在难度附近对受试者的区分能力越强,项目质量越高。通常aia_i的取值范围在0.5至2.5之间,低于0.5的项目通常被认为区分度过低而予以剔除。

三参数逻辑斯蒂模型 (3PL):在2PL基础上增加猜测参数 (Guessing / Pseudo-chance Parameter, cic_i),适用于多项选择题等存在猜测可能性的项目:

P(Xi=1θ)=ci+(1ci)eai(θbi)1+eai(θbi)P(X_i = 1 \mid \theta) = c_i + (1 - c_i)\frac{e^{a_i(\theta - b_i)}}{1 + e^{a_i(\theta - b_i)}}

猜测参数cic_i为ICC的下渐近线,表示能力极低的受试者正确作答的概率下限。对于四选一的选择题,cic_i的理论期望值为0.25,但实际估计值往往低于理论值。

信息函数与测验设计

IRT的一个重要优势在于其信息函数 (Information Function) 的概念。项目信息函数定义为:

Ii(θ)=[Pi(θ)]2Pi(θ)[1Pi(θ)]I_i(\theta) = \frac{[P'_i(\theta)]^2}{P_i(\theta)[1 - P_i(\theta)]}

其中Pi(θ)P'_i(\theta)为ICC对θ\theta的导数。测验信息函数则是各项目信息函数之和:I(θ)=iIi(θ)I(\theta) = \sum_i I_i(\theta)。信息函数直接决定了能力估计的标准误 (Standard Error):SE(θ^)=1/I(θ)\text{SE}(\hat{\theta}) = 1/\sqrt{I(\theta)}。这一关系使得测验开发者可以针对特定能力区间优化测验设计。

这一特性使得IRT在自适应测验 (Computerized Adaptive Testing, CAT) 中发挥关键作用。在CAT中,测验系统根据受试者当前的作答情况实时选择最具信息量的项目,从而在保证测量精度的同时大幅缩短测验长度。GRE和GMAT等大规模考试已广泛采用CAT模式。

参数估计与模型拟合

IRT模型的参数估计通常采用边际最大似然估计 (Marginal Maximum Likelihood, MML) 或联合最大似然估计 (Joint Maximum Likelihood, JML)。在现代IRT软件中,MML结合期望最大化算法 (EM Algorithm) 已成为标准方法。此外,马尔可夫链蒙特卡洛 (MCMC) 方法在贝叶斯IRT框架中也日益流行,尤其适用于小样本或复杂模型的情况。

模型拟合评估包括项目拟合检验整体模型比较(如对数似然比检验、AIC、BIC)。DIF分析 (Differential Item Functioning) 是IRT的重要应用领域,用于检测测验项目在不同群体(如性别、文化背景)间是否存在系统性偏差,是保障测验公平性的重要工具。

应用领域与前景

IRT广泛应用于大规模教育测评(如PISA、托福考试、GRE)、心理量表开发(如贝克抑郁量表、MMPI)、临床医学诊断中的患者报告结局测量信息系统 (PROMIS) 以及职业测评与人才选拔等领域。IRT的等值技术 (Equating) 使得不同版本的测验分数可相互比较,这是传统CTT难以实现的。

与CTT相比,IRT具有参数不变性 (Parameter Invariance) 的显著优势:项目参数的估计不受样本能力分布的影响,受试者能力的估计不受测验项目选择的影响(前提是模型拟合数据)。随着机器学习和人工智能技术的发展,IRT与认知诊断模型 (Cognitive Diagnosis Models) 的融合正成为新的研究热点,推动着心理测量学向更精细化的方向发展。