ARTICLE

计算机自适应测验

计算机自适应测验(Computerized Adaptive Testing,CAT)是一种基于项目反应理论(IRT)的动态测评技术。与传统纸笔测验固定题目的模式不同,CAT依据被试每道题的作答表现实时调整后续选题,使测验难度与个体能力水平精确匹配。这种"量体裁衣"的测试策略能在显著缩短测验长度的同时,维持甚至提升能力估计的精度。CAT已广泛应用于美国研究生

浏览 0 更新 2026-01-11

计算机自适应测验(Computerized Adaptive Testing,CAT)是一种基于项目反应理论(IRT)的动态测评技术。与传统纸笔测验固定题目的模式不同,CAT依据被试每道题的作答表现实时调整后续选题,使测验难度与个体能力水平精确匹配。这种"量体裁衣"的测试策略能在显著缩短测验长度的同时,维持甚至提升能力估计的精度。CAT已广泛应用于美国研究生入学考试(GRE)、注册会计师考试等大规模资格考试,成为现代测评科学最具代表性的技术成果之一。

一、核心原理

CAT的运作建立在项目反应理论的基础之上。IRT用数学函数描述被试能力与正确作答概率之间的关系,其中最常用的三参数逻辑斯谛模型(3PL)包含三个项目参数:区分度(aa)、难度(bb)和猜测系数(cc)。在该模型下,能力为 θ\theta 的被试在某项目上正确作答的概率为:

P(X=1θ)=c+1c1+ea(θb)P(X=1 \mid \theta) = c + \frac{1-c}{1+e^{-a(\theta - b)}}

区分度参数决定项目特征曲线的陡峭程度,难度参数决定曲线在能力轴上的位置,猜测系数则反映低能力被试纯粹猜测得分的概率下限。IRT模型为CAT提供了统一的能力量尺——无论被试作答的是哪些题目,估计出的能力值均在同一量尺上可比,这正是CAT能够实现跨被试个性化施测的逻辑前提。

CAT的选题策略追求信息量最大化。每道题对被试能力估计提供的信息量由项目信息函数度量:

Ii(θ)=[Pi(θ)]2Pi(θ)[1Pi(θ)]I_i(\theta) = \frac{[P'_i(\theta)]^2}{P_i(\theta)[1-P_i(\theta)]}

系统每完成一道题的施测,便重新计算题库中所有未使用项目的当前信息量,选取信息量最大的题目作为下一题。这一"最大信息量选题法"确保每道题都能最大限度地缩小能力估计的不确定性。信息量在题目难度与当前能力估计值接近时达到峰值,因此CAT总能挑选出难度恰好适配被试水平的题目,避免低能力者遭遇过难题目时的挫败感,也避免高能力者因题目过易而产生的效率浪费。

二、运行流程

CAT的完整流程包含四个紧密衔接的环节。第一步是初始能力设定。由于首题之前系统对被试能力一无所知,通常将初始估计值设为能力量尺的中点(即 θ=0\theta=0),或通过被试提供的学历、已修课程等辅助信息进行粗略定位。第二步是选题。系统根据当前能力估计值,从题库中挑选信息量最大的项目施测,同时需满足非统计约束——例如同一知识点不出现在连续题目中、已选题目不得重复使用、试题长度和内容比例须匹配测验蓝图。

第三步是能力估计。每次获取新的作答结果后,系统利用极大似然估计法或贝叶斯预期后验估计法更新能力值。极大似然估计通过迭代求解对数似然方程的零点来得到能力值;贝叶斯方法则引入先验分布,适合题目数量较少或作答模式极端的情况。第四步是终止判定。常见的终止规则包括:达到预设的标准误差阈值(如标准误低于0.3)、完成固定数量的题目、信息量增量不足等。一旦满足终止条件,系统输出最终能力估计值及其置信区间。

三、关键技术挑战

CAT在实践层面面临多重技术挑战。题库建设是其中最为基础也最为昂贵的环节。每一道题都需经过大规模的预测试验,精确标定其区分度、难度和猜测系数,这一过程涉及几百人以上的样本量和复杂的模型拟合检验。题库的规模直接制约CAT的表现:题库过小会导致高能力或低能力被试面临题目重复或信息量不足的问题;题库中题目参数的精确性若有偏差,则会将系统性误差传导至能力估计结果。

选题策略的局限性同样值得关注。最大信息量法虽然在统计意义上最优,但可能导致对特定题目的过度偏好,造成题库使用不均衡。为此研究者提出了a分层法(a-stratified)、间隔法(spacing method)和多目标优化策略,在信息量与使用频率之间寻求平衡。此外,内容平衡是CAT必须面对的实践约束——即便某一物理题目信息量最大,若同类内容已出现多次,系统也须跳过该题以确保测验的内容效度。实际系统中,通常将内容约束编码为线性规划问题,在每轮选题时限定可选题目的内容范围。

安全性问题是CAT系统性风险的集中体现。由于CAT的选题规则具有确定性,长期施测后题目曝光率必然呈现不均衡分布——部分"高信息量"题目频繁被选,面临泄露风险。暴露控制方法(如随机化选题法、对数曝光率法)在测试安全性方面的应用已成为CAT研究的核心议题之一。对于高风险考试,还需引入并行题库轮换、题目参数在线更新等机制来防止作弊和题目泄露。

四、应用与前景

CAT在教育领域的应用最为广泛。美国研究生入学考试(GRE)自1993年起全面采用CAT形式,将平均测验时间从3.5小时缩短至2.25小时,而测量精度不降反升。美国注册会计师考试(CPA Exam)、护士执业资格考试(NCLEX)等专业资格认证同样采用CAT,在保证安全性的前提下显著降低了考生的时间成本。在临床心理学领域,基于CAT的患者报告结局测量信息系统(PROMIS)实现了抑郁、焦虑、疲劳等维度的个性化测评,每位患者作答的题目各不相同但结果可比。

CAT的未来发展将与人工智能技术深度融合。深度学习和自然语言处理技术正被用于自动生成和标定试题参数,有望大幅降低题库建设成本。强化学习算法被应用于优化多阶段自适应决策,在信息量、内容平衡和曝光率之间实现动态帕累托最优。多阶段自适应测验(MST)作为CAT的变体,以固定长度的测验模块替代逐题自适应,在保证适应性的同时简化了测验组织流程,吸引了越来越多的应用关注。

值得注意的局限在于,CAT对硬件和网络环境有较高要求,在基础设施薄弱地区的推广面临障碍。此外,被试对于"题目变少但精度不降"的直觉理解存在困难,测试组织者需要投入额外精力进行沟通与培训。尽管如此,随着移动终端普及与云计算技术的发展,CAT正逐渐从纸笔测验的替代者转变为测评技术的主流形态,推动着全球教育评价体系向个性化、精准化和高效化的方向持续演进。