ARTICLE

分类数据

分类数据 (Categorical Data) 分类数据 (Categorical Data),亦称定性数据 (Qualitative Data) 或属性数据 (Attribute Data),是统计学和数据分析中描述个体属性或归属的基本数据类型。与可通过测量获取的数值数据 (Numerical Data) 不同,分类数据的取值为离散的类别或标签。简言之,分

浏览 39 更新 2025-10-26

分类数据 (Categorical Data)

分类数据 (Categorical Data),亦称定性数据 (Qualitative Data) 或属性数据 (Attribute Data),是统计学和数据分析中描述个体属性或归属的基本数据类型。与可通过测量获取的数值数据 (Numerical Data) 不同,分类数据的取值为离散的类别或标签。简言之,分类数据回答"是什么"或"属于哪一类"的问题——例如性别(男/女)、产品品牌(A/B/C)或居住城市(北京/上海/纽约)——各类别之间相互独立,不存在数值意义上的大小关系。

分类数据是社会科学、市场调研、生物医学和机器学习等领域中最常见的数据形式之一。正确识别和处理分类数据,对于选择恰当的统计方法和避免分析错误至关重要。

分类数据的类型

对分类数据进行合理细分,是选择正确分析和可视化方法的前提。分类数据主要包含两种子类型。

定类数据 (Nominal Data) 的类别之间没有内在顺序或等级关系,各类别仅作为名称或标签存在。对其进行编码的数字(如用"1"代表男性、"2"代表女性)纯属标识符,不具有任何数学运算意义——不能说"2"比"1"大,也不能计算其均值。常见的定类数据包括:血型(A、B、AB、O)、婚姻状况(未婚、已婚、离异、丧偶)、国籍、民族、职业类别等。定类数据处于四种测量尺度(名义、序数、等距、比率)的最低层级,信息含量最少。

定序数据 (Ordinal Data) 的类别之间存在明确的顺序或等级关系,可以按内在逻辑排序。然而,类别之间的差距并不一定是均匀或可度量的。例如,教育水平按"小学、初中、高中、学士、硕士、博士"排序,但我们无法断定"学士"与"硕士"之间的差距是否等于"高中"与"学士"之间的差距。其他定序数据的例子包括:客户满意度(非常不满意、不满意、一般、满意、非常满意)、社会经济地位(低、中、高)、信用评级(AAA、AA、A、BBB)等。定序数据比定类数据多提供了方向信息,但仍缺乏等距尺度的单位一致性。这一区分在实证研究中具有重要方法论意义。

统计描述方法

由于分类数据不具备数值数据的数学特性,不能进行加减乘除运算,因此描述其特征的方法需专门设计。

频率分布 (Frequency Distribution) 是描述分类数据最核心的方法,包含两个基本概念:频数 (Frequency) 指数据集中每个类别出现的次数;相对频率 (Relative Frequency) 指各类别频数占总观测次数的比例,计算公式为:

Relative Frequency=Category FrequencyTotal Number of Observations\text{Relative Frequency} = \frac{\text{Category Frequency}}{\text{Total Number of Observations}}

这些信息可通过频数表 (Frequency Table) 系统呈现。对于两个或多个分类变量,可使用列联表 (Contingency Table) 展示其交叉分布。

集中趋势度量方面,众数 (Mode) 即出现频率最高的类别,适用于所有分类数据。对于定序数据,因类别可排序,还可计算中位数 (Median) ——位于排序后最中间位置的类别。但均值 (Mean) 对任何分类数据均无统计意义,因为分类标签不具有数值含义。选择统计量时必须匹配数据类型——错误地使用均值描述定类数据,在方法论上是站不住脚的。

除频率和集中趋势外,分类数据的离散程度可通过信息论中的 (Entropy) 度量:熵值越高,各类别分布越均匀,不确定性越大。该指标在决策树算法中被用作特征分裂的准则。

可视化方法

条形图 (Bar Chart) 是可视化分类数据最常用、最有效的方法。其 x 轴通常表示类别,y 轴表示频数或相对频率,条形之间的间隙强调类别的离散性。饼图 (Pie Chart) 以扇形面积代表各类别的相对频率,适合展示部分占整体的比例,但当类别超过五至六个时,比较效果会大幅下降。

在统计分析中的应用

在高级统计模型中,文本形式的分类数据通常不能直接使用,需要通过编码转化为数值格式。虚拟变量 (Dummy Variables) 是最常见的编码技术:一个具有 kk 个类别的变量可转换为 k1k-1 个仅取 0 或 1 的虚拟变量。例如,对于"季度"(春、夏、秋、冬),可创建三个虚拟变量,分别表示夏季、秋季和冬季,当三者均为 0 时代表基准类别"春季"。此方法在机器学习领域常称为独热编码 (One-Hot Encoding)。

卡方检验 (Chi-squared Test) 是检验两个分类变量是否独立的经典方法,通过比较列联表中的观测频数与在独立性原假设下的期望频数进行推断。当模型的因变量为分类数据时,该任务称为分类 (Classification),常用模型包括逻辑回归决策树支持向量机等。正确识别分类数据的类型直接影响分析路径选择:误将定序数据当作等距数据使用参数方法,是实证研究中常见的方法论误区之一。