ARTICLE

区间数据

区间数据 (Interval Data) 区间数据,也称定距数据或等距尺度数据,是统计学中四种基本测量尺度之一,由心理学家斯坦利·史密斯·史蒂文斯 (Stanley Smith Stevens) 在其1946年论文《On the Theory of Scales of Measurement》中系统分类。其余三种为名义尺度 (Nominal Scale)、序

浏览 0 更新 2026-06-20

区间数据 (Interval Data)

区间数据,也称定距数据等距尺度数据,是统计学中四种基本测量尺度之一,由心理学家斯坦利·史密斯·史蒂文斯 (Stanley Smith Stevens) 在其1946年论文《On the Theory of Scales of Measurement》中系统分类。其余三种为名义尺度 (Nominal Scale)、序数尺度 (Ordinal Scale) 和比率尺度 (Ratio Scale)。

区间数据的核心特征在于:数值之间的差值有意义且等距,但不存在真正的零点。这使得加减运算是合法的,而乘除和比值运算则不具有实质性解释力。

定义与核心属性

区间尺度的形式化定义为:对于任意两个区间尺度上的测量值 x1x_1x2x_2,其差值 x1x2x_1 - x_2 具有明确的量值意义,且该差值在任何容许的线性变换 x=ax+bx' = ax + ba>0a > 0)下保持比例不变。具体而言,若令 x1=ax1+bx'_1 = a x_1 + bx2=ax2+bx'_2 = a x_2 + b,则 x1x2=a(x1x2)x'_1 - x'_2 = a(x_1 - x_2)——两值之差被缩放了一个因子 aa,但差值之间的大小关系得以保留。

区间数据的三个核心属性:

  1. 等距性:尺度上任意两个相邻整数之间的距离处处相等。例如,10C10^{\circ}\mathrm{C}20C20^{\circ}\mathrm{C} 的温差与 30C30^{\circ}\mathrm{C}40C40^{\circ}\mathrm{C} 的温差完全相同。
  2. 无绝对零点:区间尺度的零点是人为主观设定的,不表示"该属性的完全缺失"。0C0^{\circ}\mathrm{C} 不代表"没有温度",它仅仅是水的冰点这一约定参照点。
  3. 线性变换不变性:区间数据在正线性变换 x=ax+bx' = ax + b 下保持其信息结构不变。这意味着摄氏温度和华氏温度虽然数值不同,但包含完全相同的信息——两者之间仅相差一个线性变换:F=1.8C+32F = 1.8C + 32

与其他测量尺度的比较

从信息丰富程度的层级来看:名义 \subset 序数 \subset 区间 \subset 比率。

  • 与名义尺度相比:名义数据仅有分类功能(如性别、民族),无任何顺序或数值含义;区间数据不仅分类,还能量化差异的大小。
  • 与序数尺度相比:序数数据有顺序但间距不可比较(如教育等级);区间数据的核心优势正是间距的可比性。知道A班平均分85、B班78、C班71,不仅知道A > B > C,还知道A与B的差距(7分)大于B与C的差距(7分)... 等等,这里两者相等。但关键是:我们能说差距是否相等,这在序数尺度中完全不可能。
  • 与比率尺度相比:比率尺度(如身高、收入、价格)拥有绝对零点,因此"两倍""一半"等比例陈述有意义。区间尺度缺少零点,说"40C40^{\circ}\mathrm{C}20C20^{\circ}\mathrm{C} 的两倍热"是无意义的——在华氏温标下这两个温度是 104F104^{\circ}\mathrm{F}68F68^{\circ}\mathrm{F},比值完全不同。这一限制是区间与比率数据的根本分界线。

典型实例

  • 摄氏温度与华氏温度:最经典的区间尺度示例。零点是人为约定的,温差有意义但比值无意义。
  • 智商 (IQ) 分数:均值设为100,标准差设为15。IQ 130与IQ 115相差15分,与IQ 100和IQ 85的差距相等,但不能说IQ 150的人智力是IQ 75者的两倍。
  • 日历年份与日期:公元2024年和公元1012年相差1012年,但"公元0年"只是一个约定基准,不存在"零时间"。
  • 标准化考试分数:SAT、GRE等考试的分数体系通常被构造为区间尺度。
  • pH值:溶液的酸碱度。pH 3到pH 4的变化与pH 6到pH 7的变化表示相同的氢离子浓度对数变化量,但pH 0不表示"无酸碱性"。
  • 效用函数中的区间可比性:在微观经济学期望效用理论中,冯·诺依曼-摩根斯坦效用函数 (von Neumann–Morgenstern utility function) 是区间尺度上的唯一确定量——效用的原点和单位可任意选择而不改变行为预测。

可用的统计方法

区间数据的信息结构决定了哪些统计方法在数学上是合法的:

合法操作与统计量:

  • 所有名义和序数尺度允许的操作(分类、排序);
  • 加法与减法:计算差值、离差;
  • 算术均值标准差方差——这些统计量的计算以等距性为前提,在区间尺度上完全有意义;
  • 皮尔逊相关系数——度量两个区间变量的线性关联强度;
  • 参数检验:t检验ANOVA线性回归分析——这些方法依赖于均值和协方差,在区间尺度上有效。

非法操作:

  • 比值陈述("A是B的X倍");
  • 变异系数 (Coefficient of Variation),因其计算含有比值;
  • 几何均值,因其依赖于乘法意义上的比例关系。

李克特量表争议

社会科学市场研究的实证研究中,李克特量表 (Likert Scale) 的尺度归属是一个长期争议。严格而言,单题李克特五级选项("非常不同意"到"非常同意")属于序数数据——相邻选项之间的心理距离无法确保等距。然而,实践中研究者几乎总是将其视作区间数据处理,计算均值、标准差并运行回归模型。

支持"当作区间数据"的论据包括:1)多题加总后的总分(Likert summated score)随着题数增加,中心极限定理效应使其分布接近正态;2)大量模拟研究表明,参数方法对轻度偏离等距性的序数数据相当稳健;3)非参数方法虽然更严格,但在多变量建模中的灵活性远不及线性模型。

审慎的做法是:报告参数检验结果的同时,辅以相应的非参数方法(如斯皮尔曼秩相关曼-惠特尼U检验)作为敏感性分析,确保结论不受尺度假设的影响。

在计量经济学中的应用

计量经济学中,区间数据的识别对模型设定至关重要。大多数微观计量模型——特别是工资方程(被解释变量ln(wage)\ln(\text{wage})是比率尺度)、教育年限和认知测试分数(区间或准区间尺度)的回归——混合使用不同尺度的变量。理解各变量的尺度属性有助于正确解释回归系数:对于一个区间尺度的解释变量,其系数表示该变量每变动一个单位对被解释变量的平均效应,该效应在变量的整个取值范围内是恒定的(线性模型假设下)。而对于序数控制变量,研究者通常引入虚拟变量组而非将其作为连续变量处理,以避免施加等距假设。

区间数据在四种测量尺度中占据承上启下的关键位置:它使研究者得以从定性的"序"迈向定量的"量",同时又以其对零点的审慎态度提醒我们——数字的便利绝不意味着解释的随意。