ARTICLE

描述统计

描述统计 (Descriptive Statistics) 描述统计是统计学两大核心分支之一(另一个是推断统计),其任务是对已有数据集合的整体特征进行概括、组织和呈现,而不涉及从样本推断总体的过程。描述统计回答"数据告诉我们什么"——通过数值指标和可视化手段,揭示数据的集中趋势、离散程度、分布形态等基本特征。 与推断统计不同,描述统计不依赖概率模型,也不对数

浏览 4 更新 2025-11-09

描述统计 (Descriptive Statistics)

描述统计统计学两大核心分支之一(另一个是推断统计),其任务是对已有数据集合的整体特征进行概括、组织和呈现,而不涉及从样本推断总体的过程。描述统计回答"数据告诉我们什么"——通过数值指标和可视化手段,揭示数据的集中趋势离散程度、分布形态等基本特征。

推断统计不同,描述统计不依赖概率模型,也不对数据来源的总体做出假设。它是对数据本身的忠实刻画,是任何数据分析流程的起点。无论是探索性数据分析还是正式研究报告,描述统计都是不可或缺的第一步。

数据的类型

在讨论描述统计的具体方法之前,必须区分数据类型,因为不同类型的变量适用不同的描述手段:

  • 分类变量 (Categorical / Qualitative):取值是类别标签而非数值。进一步分为名义变量(类别无序,如性别、血型)和序数变量(类别有自然顺序,如满意度评级"低/中/高"、教育程度"小学/初中/高中/大学")。
  • 数值变量 (Numerical / Quantitative):取值是数字,可进行算术运算。进一步分为离散变量(取值可数,如家庭人口数、每月事故次数)和连续变量(取值不可数,如身高、体重、GDP)。

对于分类变量,描述统计主要使用频数、比例和众数;对于数值变量,则使用本节下文介绍的整套指标。

集中趋势的度量

集中趋势描述数据"中心"或"典型值"的位置。常用的三种度量指标各有其适用范围和数学性质。

算术平均数 (Arithmetic Mean)

总体均值记为 μ=1Ni=1NXi\mu = \frac{1}{N} \sum_{i=1}^{N} X_i,样本均值记为 Xˉ=1ni=1nXi\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i。均值在数学上具有平方误差最小的性质——它是使 (Xic)2\sum (X_i - c)^2 取极小值的 cc。这一性质使均值成为最小二乘法回归分析的核心。但均值对异常值极为敏感:一个极端值即可显著拉动均值偏离数据主体的中心位置。

中位数 (Median)

将数据从小到大排序后,位于中间位置的值即为中位数。若数据个数为偶数,通常取中间两个数的均值。中位数的核心优势是稳健性:相对于均值,中位数不受极端值的任何影响(只要异常值不改变排序的中间位置)。因此在收入、房价等右偏分布的数据分析中,中位数往往比均值更具代表性。

众数 (Mode)

数据中出现频次最高的值。众数适用于各类数据,包括分类变量(如"最常选择的政治党派")。一个数据集可以没有众数、有单一众数(单峰)或有多个众数(双峰或多峰)。在描述多峰分布时,众数能揭示均值和中位数无法捕捉的结构。

三者关系与选择

在对称单峰分布中,均值 = 中位数 = 众数。在正偏(右偏)分布中,均值 > 中位数 > 众数;在负偏(左偏)分布中,均值 < 中位数 < 众数。这一排序关系本身即可用于判断分布的偏斜方向。

选择集中趋势指标的经验法则:对于大致对称且无异常值的数据,使用均值;对于偏态或有异常值的数据,使用中位数;对于分类数据或多峰结构,使用众数。

离散程度的度量

集中趋势仅描述数据"在哪儿",离散程度则描述数据"有多分散"。两者结合才能完整刻画分布。

全距 (Range) 与四分位距 (IQR)

全距 = 最大值 - 最小值,简单直观但受异常值影响极大。

四分位距 (Interquartile Range, IQR) 定义为第三四分位数与第一四分位数之差:IQR=Q3Q1\text{IQR} = Q_3 - Q_1。IQR 覆盖中间 50\% 的数据,是稳健的离散度量。与中位数配合使用的五数概括法(最小值、Q1Q_1、中位数、Q3Q_3、最大值)是箱线图 (Box Plot) 的基础。根据 Tukey 的建议,小于 Q11.5×IQRQ_1 - 1.5 \times \text{IQR} 或大于 Q3+1.5×IQRQ_3 + 1.5 \times \text{IQR} 的数据点通常被标记为潜在异常值

方差与标准差 (Variance and Standard Deviation)

总体方差 σ2=1Ni=1N(Xiμ)2\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2,样本方差 s2=1n1i=1n(XiXˉ)2s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2。样本方差使用 n1n-1 作为分母(贝塞尔校正),以确保其期望值等于总体方差,即 E[s2]=σ2E[s^2] = \sigma^2,从而满足无偏性

标准差 σ\sigma(或 ss)是方差的平方根,其量纲与原始数据一致,因此比方差更容易解释。标准差在正态分布中具有明确的概率含义:约 68\% 的数据落在 Xˉ±s\bar{X} \pm s 范围内,约 95\% 落在 Xˉ±2s\bar{X} \pm 2s 范围内。

变异系数 (Coefficient of Variation, CV)

定义为标准差与均值的比率:CV=s/Xˉ\text{CV} = s / \bar{X}Xˉ0\bar{X} \neq 0)。CV 是无量纲数,用于比较不同量纲或不同量级数据的相对离散程度。例如,比较身高(厘米)和体重(千克)的变异时,标准差无法直接对比,但 CV 可以。

分布形态的度量

偏度 (Skewness)

描述数据分布的对称性。总体偏度定义为标准化的三阶中心矩:

γ1=1Ni=1N(Xiμσ)3\gamma_1 = \frac{1}{N} \sum_{i=1}^{N} \left( \frac{X_i - \mu}{\sigma} \right)^3

对样本偏度,常用调整公式为 g1=n(n1)(n2)i=1n(zi)3g_1 = \frac{n}{(n-1)(n-2)} \sum_{i=1}^{n} (z_i)^3,其中 zi=(XiXˉ)/sz_i = (X_i - \bar{X}) / s。偏度为零表示对称分布(如正态分布);偏度为正表示右尾更长(如收入分布);偏度为负表示左尾更长。

峰度 (Kurtosis)

描述数据分布的尾部厚度或"尖峭"程度。总体峰度定义为标准化的四阶中心矩:

γ2=1Ni=1N(Xiμσ)43\gamma_2 = \frac{1}{N} \sum_{i=1}^{N} \left( \frac{X_i - \mu}{\sigma} \right)^4 - 3

减去 3 使得正态分布的峰度为 0(称为"超额峰度")。正峰度(尖峰态,leptokurtic)表示尾部比正态分布更厚,数据中极端值出现的概率更高,常见于金融收益率数据;负峰度(扁峰态,platykurtic)表示尾部比正态分布更薄。

图形化描述方法

数值指标之外,图形是描述统计的另一核心工具:

  • 直方图 (Histogram):将连续数据分组为等宽区间(bins),用柱高表示各区间内的频数或频率,直观展示分布的全局形态——对称性、偏度、峰度、多峰性等。
  • 箱线图 (Box Plot):基于五数概括法,用矩形盒表示 IQR、盒内横线表示中位数、须线延伸至非异常值范围。特别适合比较多个组的分布差异。
  • 茎叶图 (Stem-and-Leaf Plot):保留原始数据信息的图形,适合中等规模数据集(n<100n < 100),在展示分布形态的同时可还原每个数据的精确值。
  • 散点图 (Scatter Plot):用于描述两个数值变量之间的关系——方向、形态和强度,是相关系数分析和回归分析的视觉起点。

描述统计与推断统计的关系

描述统计与推断统计并非孤立的两套工具,而是数据分析的两个阶段。描述统计首先对样本进行概括,为后续的推断提供方向——例如,通过描述统计发现数据严重右偏后,可能触发变量对数化变换,或选择非参数检验方法。同时,推断统计的结果(如估计的参数、检验的 p 值)也必须与描述统计揭示的实际效应量(effect size)相结合,才能做出有实际意义的判断。仅报告 p 值而忽略均值、标准差和分布形态,可能导致统计显著但实际无意义的结论。

常见误区

  1. 以偏概全:仅报告均值而不报告离散指标(标准差、IQR),使读者无法判断数据的代表性。
  2. 忽略分布形态:均值和标准差仅对对称分布有良好解释力;对于偏态数据,应优先报告中位数和 IQR,而非强行使用均值。
  3. 异常值处理不当:不应无条件删除异常值——异常值可能包含测量误差,也可能揭示重要现象。应先识别、核查、记录,再决定处理策略。
  4. 混淆总体与样本:计算离散指标时需区分总体(分母 NN)与样本(分母 n1n-1),否则方差估计将有系统偏差。
  5. 过度依赖统计量:任何数值指标都不能替代对原始数据的可视化检查——安斯库姆四重奏 (Anscombe's Quartet) 是最经典的警示:四组数据具有完全相同的均值、方差和相关系数,但散点图揭示出截然不同的数据结构。