ARTICLE

区间数据

区间数据 (Interval Data) 区间数据，也称定距数据或等距尺度数据，是统计学中四种基本测量尺度之一，由心理学家斯坦利·史密斯·史蒂文斯 (Stanley Smith Stevens) 在其1946年论文《On the Theory of Scales of Measurement》中系统分类。其余三种为名义尺度 (Nominal Scale)、序

浏览 0 更新 2026-06-20

区间数据 (Interval Data)

区间数据，也称定距数据或等距尺度数据，是统计学中四种基本测量尺度之一，由心理学家斯坦利·史密斯·史蒂文斯 (Stanley Smith Stevens) 在其1946年论文《On the Theory of Scales of Measurement》中系统分类。其余三种为名义尺度 (Nominal Scale)、序数尺度 (Ordinal Scale) 和比率尺度 (Ratio Scale)。

区间数据的核心特征在于：数值之间的差值有意义且等距，但不存在真正的零点。这使得加减运算是合法的，而乘除和比值运算则不具有实质性解释力。

定义与核心属性

区间尺度的形式化定义为：对于任意两个区间尺度上的测量值 $x_1$ 和 $x_2$ ，其差值 $x_1 - x_2$ 具有明确的量值意义，且该差值在任何容许的线性变换 $x' = ax + b$ （ $a > 0$ ）下保持比例不变。具体而言，若令 $x'_1 = a x_1 + b$ 、 $x'_2 = a x_2 + b$ ，则 $x'_1 - x'_2 = a(x_1 - x_2)$ ——两值之差被缩放了一个因子 $a$ ，但差值之间的大小关系得以保留。

区间数据的三个核心属性：

等距性：尺度上任意两个相邻整数之间的距离处处相等。例如， $10^{\circ}\mathrm{C}$ 到 $20^{\circ}\mathrm{C}$ 的温差与 $30^{\circ}\mathrm{C}$ 到 $40^{\circ}\mathrm{C}$ 的温差完全相同。
无绝对零点：区间尺度的零点是人为主观设定的，不表示"该属性的完全缺失"。 $0^{\circ}\mathrm{C}$ 不代表"没有温度"，它仅仅是水的冰点这一约定参照点。
线性变换不变性：区间数据在正线性变换 $x' = ax + b$ 下保持其信息结构不变。这意味着摄氏温度和华氏温度虽然数值不同，但包含完全相同的信息——两者之间仅相差一个线性变换： $F = 1.8C + 32$ 。

与其他测量尺度的比较

从信息丰富程度的层级来看：名义 $\subset$ 序数 $\subset$ 区间 $\subset$ 比率。

与名义尺度相比：名义数据仅有分类功能（如性别、民族），无任何顺序或数值含义；区间数据不仅分类，还能量化差异的大小。
与序数尺度相比：序数数据有顺序但间距不可比较（如教育等级）；区间数据的核心优势正是间距的可比性。知道A班平均分85、B班78、C班71，不仅知道A > B > C，还知道A与B的差距（7分）大于B与C的差距（7分）... 等等，这里两者相等。但关键是：我们能说差距是否相等，这在序数尺度中完全不可能。
与比率尺度相比：比率尺度（如身高、收入、价格）拥有绝对零点，因此"两倍""一半"等比例陈述有意义。区间尺度缺少零点，说" $40^{\circ}\mathrm{C}$ 是 $20^{\circ}\mathrm{C}$ 的两倍热"是无意义的——在华氏温标下这两个温度是 $104^{\circ}\mathrm{F}$ 和 $68^{\circ}\mathrm{F}$ ，比值完全不同。这一限制是区间与比率数据的根本分界线。

典型实例

摄氏温度与华氏温度：最经典的区间尺度示例。零点是人为约定的，温差有意义但比值无意义。
智商 (IQ) 分数：均值设为100，标准差设为15。IQ 130与IQ 115相差15分，与IQ 100和IQ 85的差距相等，但不能说IQ 150的人智力是IQ 75者的两倍。
日历年份与日期：公元2024年和公元1012年相差1012年，但"公元0年"只是一个约定基准，不存在"零时间"。
标准化考试分数：SAT、GRE等考试的分数体系通常被构造为区间尺度。
pH值：溶液的酸碱度。pH 3到pH 4的变化与pH 6到pH 7的变化表示相同的氢离子浓度对数变化量，但pH 0不表示"无酸碱性"。
效用函数中的区间可比性：在微观经济学的期望效用理论中，冯·诺依曼-摩根斯坦效用函数 (von Neumann–Morgenstern utility function) 是区间尺度上的唯一确定量——效用的原点和单位可任意选择而不改变行为预测。

可用的统计方法

区间数据的信息结构决定了哪些统计方法在数学上是合法的：

合法操作与统计量：

所有名义和序数尺度允许的操作（分类、排序）；
加法与减法：计算差值、离差；
算术均值、标准差、方差——这些统计量的计算以等距性为前提，在区间尺度上完全有意义；
皮尔逊相关系数——度量两个区间变量的线性关联强度；
参数检验：t检验、ANOVA、线性回归分析——这些方法依赖于均值和协方差，在区间尺度上有效。

非法操作：

比值陈述（"A是B的X倍"）；
变异系数 (Coefficient of Variation)，因其计算含有比值；
几何均值，因其依赖于乘法意义上的比例关系。

李克特量表争议

在社会科学和市场研究的实证研究中，李克特量表 (Likert Scale) 的尺度归属是一个长期争议。严格而言，单题李克特五级选项（"非常不同意"到"非常同意"）属于序数数据——相邻选项之间的心理距离无法确保等距。然而，实践中研究者几乎总是将其视作区间数据处理，计算均值、标准差并运行回归模型。

支持"当作区间数据"的论据包括：1）多题加总后的总分（Likert summated score）随着题数增加，中心极限定理效应使其分布接近正态；2）大量模拟研究表明，参数方法对轻度偏离等距性的序数数据相当稳健；3）非参数方法虽然更严格，但在多变量建模中的灵活性远不及线性模型。

审慎的做法是：报告参数检验结果的同时，辅以相应的非参数方法（如斯皮尔曼秩相关、曼-惠特尼U检验）作为敏感性分析，确保结论不受尺度假设的影响。

在计量经济学中的应用

在计量经济学中，区间数据的识别对模型设定至关重要。大多数微观计量模型——特别是工资方程（被解释变量 $\ln(\text{wage})$ 是比率尺度）、教育年限和认知测试分数（区间或准区间尺度）的回归——混合使用不同尺度的变量。理解各变量的尺度属性有助于正确解释回归系数：对于一个区间尺度的解释变量，其系数表示该变量每变动一个单位对被解释变量的平均效应，该效应在变量的整个取值范围内是恒定的（线性模型假设下）。而对于序数控制变量，研究者通常引入虚拟变量组而非将其作为连续变量处理，以避免施加等距假设。

区间数据在四种测量尺度中占据承上启下的关键位置：它使研究者得以从定性的"序"迈向定量的"量"，同时又以其对零点的审慎态度提醒我们——数字的便利绝不意味着解释的随意。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。