ARTICLE
区间数据
区间数据 (Interval Data) 区间数据,也称定距数据或等距尺度数据,是统计学中四种基本测量尺度之一,由心理学家斯坦利·史密斯·史蒂文斯 (Stanley Smith Stevens) 在其1946年论文《On the Theory of Scales of Measurement》中系统分类。其余三种为名义尺度 (Nominal Scale)、序
区间数据 (Interval Data)
区间数据,也称定距数据或等距尺度数据,是统计学中四种基本测量尺度之一,由心理学家斯坦利·史密斯·史蒂文斯 (Stanley Smith Stevens) 在其1946年论文《On the Theory of Scales of Measurement》中系统分类。其余三种为名义尺度 (Nominal Scale)、序数尺度 (Ordinal Scale) 和比率尺度 (Ratio Scale)。
区间数据的核心特征在于:数值之间的差值有意义且等距,但不存在真正的零点。这使得加减运算是合法的,而乘除和比值运算则不具有实质性解释力。
定义与核心属性
区间尺度的形式化定义为:对于任意两个区间尺度上的测量值 和 ,其差值 具有明确的量值意义,且该差值在任何容许的线性变换 ()下保持比例不变。具体而言,若令 、,则 ——两值之差被缩放了一个因子 ,但差值之间的大小关系得以保留。
区间数据的三个核心属性:
- 等距性:尺度上任意两个相邻整数之间的距离处处相等。例如, 到 的温差与 到 的温差完全相同。
- 无绝对零点:区间尺度的零点是人为主观设定的,不表示"该属性的完全缺失"。 不代表"没有温度",它仅仅是水的冰点这一约定参照点。
- 线性变换不变性:区间数据在正线性变换 下保持其信息结构不变。这意味着摄氏温度和华氏温度虽然数值不同,但包含完全相同的信息——两者之间仅相差一个线性变换:。
与其他测量尺度的比较
从信息丰富程度的层级来看:名义 序数 区间 比率。
- 与名义尺度相比:名义数据仅有分类功能(如性别、民族),无任何顺序或数值含义;区间数据不仅分类,还能量化差异的大小。
- 与序数尺度相比:序数数据有顺序但间距不可比较(如教育等级);区间数据的核心优势正是间距的可比性。知道A班平均分85、B班78、C班71,不仅知道A > B > C,还知道A与B的差距(7分)大于B与C的差距(7分)... 等等,这里两者相等。但关键是:我们能说差距是否相等,这在序数尺度中完全不可能。
- 与比率尺度相比:比率尺度(如身高、收入、价格)拥有绝对零点,因此"两倍""一半"等比例陈述有意义。区间尺度缺少零点,说" 是 的两倍热"是无意义的——在华氏温标下这两个温度是 和 ,比值完全不同。这一限制是区间与比率数据的根本分界线。
典型实例
- 摄氏温度与华氏温度:最经典的区间尺度示例。零点是人为约定的,温差有意义但比值无意义。
- 智商 (IQ) 分数:均值设为100,标准差设为15。IQ 130与IQ 115相差15分,与IQ 100和IQ 85的差距相等,但不能说IQ 150的人智力是IQ 75者的两倍。
- 日历年份与日期:公元2024年和公元1012年相差1012年,但"公元0年"只是一个约定基准,不存在"零时间"。
- 标准化考试分数:SAT、GRE等考试的分数体系通常被构造为区间尺度。
- pH值:溶液的酸碱度。pH 3到pH 4的变化与pH 6到pH 7的变化表示相同的氢离子浓度对数变化量,但pH 0不表示"无酸碱性"。
- 效用函数中的区间可比性:在微观经济学的期望效用理论中,冯·诺依曼-摩根斯坦效用函数 (von Neumann–Morgenstern utility function) 是区间尺度上的唯一确定量——效用的原点和单位可任意选择而不改变行为预测。
可用的统计方法
区间数据的信息结构决定了哪些统计方法在数学上是合法的:
合法操作与统计量:
- 所有名义和序数尺度允许的操作(分类、排序);
- 加法与减法:计算差值、离差;
- 算术均值、标准差、方差——这些统计量的计算以等距性为前提,在区间尺度上完全有意义;
- 皮尔逊相关系数——度量两个区间变量的线性关联强度;
- 参数检验:t检验、ANOVA、线性回归分析——这些方法依赖于均值和协方差,在区间尺度上有效。
非法操作:
- 比值陈述("A是B的X倍");
- 变异系数 (Coefficient of Variation),因其计算含有比值;
- 几何均值,因其依赖于乘法意义上的比例关系。
李克特量表争议
在社会科学和市场研究的实证研究中,李克特量表 (Likert Scale) 的尺度归属是一个长期争议。严格而言,单题李克特五级选项("非常不同意"到"非常同意")属于序数数据——相邻选项之间的心理距离无法确保等距。然而,实践中研究者几乎总是将其视作区间数据处理,计算均值、标准差并运行回归模型。
支持"当作区间数据"的论据包括:1)多题加总后的总分(Likert summated score)随着题数增加,中心极限定理效应使其分布接近正态;2)大量模拟研究表明,参数方法对轻度偏离等距性的序数数据相当稳健;3)非参数方法虽然更严格,但在多变量建模中的灵活性远不及线性模型。
审慎的做法是:报告参数检验结果的同时,辅以相应的非参数方法(如斯皮尔曼秩相关、曼-惠特尼U检验)作为敏感性分析,确保结论不受尺度假设的影响。
在计量经济学中的应用
在计量经济学中,区间数据的识别对模型设定至关重要。大多数微观计量模型——特别是工资方程(被解释变量是比率尺度)、教育年限和认知测试分数(区间或准区间尺度)的回归——混合使用不同尺度的变量。理解各变量的尺度属性有助于正确解释回归系数:对于一个区间尺度的解释变量,其系数表示该变量每变动一个单位对被解释变量的平均效应,该效应在变量的整个取值范围内是恒定的(线性模型假设下)。而对于序数控制变量,研究者通常引入虚拟变量组而非将其作为连续变量处理,以避免施加等距假设。
区间数据在四种测量尺度中占据承上启下的关键位置:它使研究者得以从定性的"序"迈向定量的"量",同时又以其对零点的审慎态度提醒我们——数字的便利绝不意味着解释的随意。