知经 KNOWECON · 卓越的经济金融统计数学学习平台

分类数据

# 分类数据 (Categorical Data)

分类数据 (Categorical Data),也称为 定性数据 (Qualitative Data) 或 属性数据 (Attribute Data),是{{{统计学}}}和数据分析中的一种基本{{{数据类型}}}。它描述的是个体的某种属性、特征或归属,其取值为一些离散的类别或标签,而不是可以通过测量得到的{{{数值数据}}} (Numerical Data)。

简单来说,分类数据回答的是“是什么”或“属于哪一类”的问题,例如一个人的性别(男/女)、产品的品牌(A/B/C)或一个城市的名称(北京/上海/纽约)。这些数据点被分门别类,每个类别之间是相互独立的。

## 分类数据的类型 (Types of Categorical Data)

对分类数据进行细分对于选择正确的分析和可视化方法至关重要。分类数据主要分为两种类型:定类数据和定序数据。

### 1. 定类数据 (Nominal Data)

{{{定类数据}}} 是指其类别之间没有内在的、自然的顺序或等级关系的数据。这些类别仅仅是名称或标签。

* 特点:类别之间是平等的,无法进行排序或比较大小。对它们进行编码的数字(例如,用“1”代表男性,“2”代表女性)仅作为标识符,不具有任何数学意义。你不能说“2”比“1”大。 * 例子: * 性别: 男, 女, 其他 * 血型: A, B, AB, O * 婚姻状况: 未婚, 已婚, 离异, 丧偶 * 国籍: 中国, 美国, 日本

### 2. 定序数据 (Ordinal Data)

{{{定序数据}}} 是指其类别之间存在明确的、有意义的顺序或等级关系的数据。我们可以根据其内在逻辑对类别进行排序。

* 特点:类别可以排序,但类别之间的差距不一定是均匀或可度量的。例如,我们可以说“硕士”学位高于“学士”学位,但无法精确计算这两个学位等级之间的“差距”与“学士”和“高中”之间的“差距”是否相等。 * 例子: * 教育水平: 小学, 初中, 高中, 学士, 硕士, 博士 * 客户满意度: 非常不满意, 不满意, 一般, 满意, 非常满意 * 社会经济地位: 低, 中, 高 * 信用评级: AAA, AA, A, BBB, BB, B

## 分类数据的统计描述

由于分类数据不具备常规数值的数学特性,我们不能对其进行加、减、乘、除等运算,因此描述其特征的方法也与数值数据不同。

* {{{频率分布}}} (Frequency Distribution):描述分类数据最核心的方法。 * 频数 (Frequency):数据集中每个类别出现的次数。 * 相对频率 (Relative Frequency):每个类别的频数占总观测次数的比例或百分比。其计算公式为: $$ \text{Relative Frequency} = \frac{\text{Category Frequency}}{\text{Total Number of Observations}} $$ * 我们可以通过创建 频数表 (Frequency Table) 来系统地展示这些信息。

* 集中趋势的度量 (Measure of Central Tendency): * 对于所有分类数据(包括定类和定序),最适合的集中趋势度量是 {{{众数}}} (Mode),即出现频率最高的类别。 * 对于{{{定序数据}}},因为其类别可以排序,所以也可以确定 {{{中位数}}} (Median),即位于数据排序后最中间位置的类别。 * 均值 (Mean) 对任何分类数据都无意义。

## 分类数据的可视化

图形化是理解分类数据分布的直观方式。

* {{{条形图}}} (Bar Chart):这是可视化分类数据最常用和最有效的方法。条形图的x轴通常表示类别,y轴表示该类别的频数或相对频率。每个条形之间有间隙,以强调类别的离散性。

* {{{饼图}}} (Pie Chart):饼图将一个圆形划分为多个扇形,每个扇形的面积(或角度)代表其对应类别的相对频率。它很适合用来展示各个部分占整体的比例,但当类别过多(通常超过5或6个)时,会变得难以解读和比较。

* {{{列联表}}} (Contingency Table):也称交叉表,用于展示两个或多个分类变量之间的关系。它是一个二维或多维表格,单元格中显示的是变量组合的频数。

## 在统计分析中的应用

在许多高级统计模型中,直接使用文本形式的分类数据是不可行的。因此,需要将其转换为数值格式。

* 数据编码 (Data Encoding):这是{{{数据预处理}}}的关键步骤。 * {{{虚拟变量}}} (Dummy Variables):这是最常见的编码技术,尤其在{{{回归分析}}}中。一个具有 $k$ 个类别的分类变量可以被转换为 $k-1$ 个“虚拟变量”,这些变量只取 0 或 1。例如,对于“季度”(春、夏、秋、冬),我们可以创建3个虚拟变量:$D_1$(夏天=1,其他=0),$D_2$(秋天=1,其他=0),$D_3$(冬天=1,其他=0)。当这三个变量都为0时,就代表基准类别“春天”。这种方法也称为 独热编码 (One-Hot Encoding),特别是在{{{机器学习}}}领域。

* 关联性检验 (Test of Association): * {{{卡方检验}}} (Chi-squared Test):这是检验两个分类变量是否独立的经典统计方法。它通过比较列联表中的观测频数和在“两变量相互独立”的{{{原假设}}}下的期望频数来做出判断。如果观测频数与期望频数差异显著,则拒绝原假设,认为两个变量之间存在关联。

* 分类模型 (Classification Models): * 当一个模型的{{{因变量}}} (Dependent Variable) 是分类数据时,这个任务被称为“分类”。例如,预测一个客户是否会流失(是/否),或判断一封邮件是否为垃圾邮件(是/否)。常用的分类模型包括{{{逻辑回归}}} (Logistic Regression)、{{{决策树}}} (Decision Tree) 和{{{支持向量机}}} (Support Vector Machine, SVM) 等。