ARTICLE

描述统计

描述统计 (Descriptive Statistics) 描述统计是统计学两大核心分支之一（另一个是推断统计），其任务是对已有数据集合的整体特征进行概括、组织和呈现，而不涉及从样本推断总体的过程。描述统计回答"数据告诉我们什么"——通过数值指标和可视化手段，揭示数据的集中趋势、离散程度、分布形态等基本特征。与推断统计不同，描述统计不依赖概率模型，也不对数

浏览 4 更新 2025-11-09

描述统计 (Descriptive Statistics)

描述统计是统计学两大核心分支之一（另一个是推断统计），其任务是对已有数据集合的整体特征进行概括、组织和呈现，而不涉及从样本推断总体的过程。描述统计回答"数据告诉我们什么"——通过数值指标和可视化手段，揭示数据的集中趋势、离散程度、分布形态等基本特征。

与推断统计不同，描述统计不依赖概率模型，也不对数据来源的总体做出假设。它是对数据本身的忠实刻画，是任何数据分析流程的起点。无论是探索性数据分析还是正式研究报告，描述统计都是不可或缺的第一步。

数据的类型

在讨论描述统计的具体方法之前，必须区分数据类型，因为不同类型的变量适用不同的描述手段：

分类变量 (Categorical / Qualitative)：取值是类别标签而非数值。进一步分为名义变量（类别无序，如性别、血型）和序数变量（类别有自然顺序，如满意度评级"低/中/高"、教育程度"小学/初中/高中/大学"）。
数值变量 (Numerical / Quantitative)：取值是数字，可进行算术运算。进一步分为离散变量（取值可数，如家庭人口数、每月事故次数）和连续变量（取值不可数，如身高、体重、GDP）。

对于分类变量，描述统计主要使用频数、比例和众数；对于数值变量，则使用本节下文介绍的整套指标。

集中趋势的度量

集中趋势描述数据"中心"或"典型值"的位置。常用的三种度量指标各有其适用范围和数学性质。

算术平均数 (Arithmetic Mean)

总体均值记为 $\mu = \frac{1}{N} \sum_{i=1}^{N} X_i$ ，样本均值记为 $\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$ 。均值在数学上具有平方误差最小的性质——它是使 $\sum (X_i - c)^2$ 取极小值的 $c$ 。这一性质使均值成为最小二乘法和回归分析的核心。但均值对异常值极为敏感：一个极端值即可显著拉动均值偏离数据主体的中心位置。

中位数 (Median)

将数据从小到大排序后，位于中间位置的值即为中位数。若数据个数为偶数，通常取中间两个数的均值。中位数的核心优势是稳健性：相对于均值，中位数不受极端值的任何影响（只要异常值不改变排序的中间位置）。因此在收入、房价等右偏分布的数据分析中，中位数往往比均值更具代表性。

众数 (Mode)

数据中出现频次最高的值。众数适用于各类数据，包括分类变量（如"最常选择的政治党派"）。一个数据集可以没有众数、有单一众数（单峰）或有多个众数（双峰或多峰）。在描述多峰分布时，众数能揭示均值和中位数无法捕捉的结构。

三者关系与选择

在对称单峰分布中，均值 = 中位数 = 众数。在正偏（右偏）分布中，均值 > 中位数 > 众数；在负偏（左偏）分布中，均值 < 中位数 < 众数。这一排序关系本身即可用于判断分布的偏斜方向。

选择集中趋势指标的经验法则：对于大致对称且无异常值的数据，使用均值；对于偏态或有异常值的数据，使用中位数；对于分类数据或多峰结构，使用众数。

离散程度的度量

集中趋势仅描述数据"在哪儿"，离散程度则描述数据"有多分散"。两者结合才能完整刻画分布。

全距 (Range) 与四分位距 (IQR)

全距 = 最大值 - 最小值，简单直观但受异常值影响极大。

四分位距 (Interquartile Range, IQR) 定义为第三四分位数与第一四分位数之差： $\text{IQR} = Q_3 - Q_1$ 。IQR 覆盖中间 50\% 的数据，是稳健的离散度量。与中位数配合使用的五数概括法（最小值、 $Q_1$ 、中位数、 $Q_3$ 、最大值）是箱线图 (Box Plot) 的基础。根据 Tukey 的建议，小于 $Q_1 - 1.5 \times \text{IQR}$ 或大于 $Q_3 + 1.5 \times \text{IQR}$ 的数据点通常被标记为潜在异常值。

方差与标准差 (Variance and Standard Deviation)

总体方差 $\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (X_i - \mu)^2$ ，样本方差 $s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2$ 。样本方差使用 $n-1$ 作为分母（贝塞尔校正），以确保其期望值等于总体方差，即 $E[s^2] = \sigma^2$ ，从而满足无偏性。

标准差 $\sigma$ （或 $s$ ）是方差的平方根，其量纲与原始数据一致，因此比方差更容易解释。标准差在正态分布中具有明确的概率含义：约 68\% 的数据落在 $\bar{X} \pm s$ 范围内，约 95\% 落在 $\bar{X} \pm 2s$ 范围内。

变异系数 (Coefficient of Variation, CV)

定义为标准差与均值的比率： $\text{CV} = s / \bar{X}$ （ $\bar{X} \neq 0$ ）。CV 是无量纲数，用于比较不同量纲或不同量级数据的相对离散程度。例如，比较身高（厘米）和体重（千克）的变异时，标准差无法直接对比，但 CV 可以。

分布形态的度量

偏度 (Skewness)

描述数据分布的对称性。总体偏度定义为标准化的三阶中心矩：

\gamma_1 = \frac{1}{N} \sum_{i=1}^{N} \left( \frac{X_i - \mu}{\sigma} \right)^3

对样本偏度，常用调整公式为 $g_1 = \frac{n}{(n-1)(n-2)} \sum_{i=1}^{n} (z_i)^3$ ，其中 $z_i = (X_i - \bar{X}) / s$ 。偏度为零表示对称分布（如正态分布）；偏度为正表示右尾更长（如收入分布）；偏度为负表示左尾更长。

峰度 (Kurtosis)

描述数据分布的尾部厚度或"尖峭"程度。总体峰度定义为标准化的四阶中心矩：

\gamma_2 = \frac{1}{N} \sum_{i=1}^{N} \left( \frac{X_i - \mu}{\sigma} \right)^4 - 3

减去 3 使得正态分布的峰度为 0（称为"超额峰度"）。正峰度（尖峰态，leptokurtic）表示尾部比正态分布更厚，数据中极端值出现的概率更高，常见于金融收益率数据；负峰度（扁峰态，platykurtic）表示尾部比正态分布更薄。

图形化描述方法

数值指标之外，图形是描述统计的另一核心工具：

直方图 (Histogram)：将连续数据分组为等宽区间（bins），用柱高表示各区间内的频数或频率，直观展示分布的全局形态——对称性、偏度、峰度、多峰性等。
箱线图 (Box Plot)：基于五数概括法，用矩形盒表示 IQR、盒内横线表示中位数、须线延伸至非异常值范围。特别适合比较多个组的分布差异。
茎叶图 (Stem-and-Leaf Plot)：保留原始数据信息的图形，适合中等规模数据集（ $n < 100$ ），在展示分布形态的同时可还原每个数据的精确值。
散点图 (Scatter Plot)：用于描述两个数值变量之间的关系——方向、形态和强度，是相关系数分析和回归分析的视觉起点。

描述统计与推断统计的关系

描述统计与推断统计并非孤立的两套工具，而是数据分析的两个阶段。描述统计首先对样本进行概括，为后续的推断提供方向——例如，通过描述统计发现数据严重右偏后，可能触发变量对数化变换，或选择非参数检验方法。同时，推断统计的结果（如估计的参数、检验的 p 值）也必须与描述统计揭示的实际效应量（effect size）相结合，才能做出有实际意义的判断。仅报告 p 值而忽略均值、标准差和分布形态，可能导致统计显著但实际无意义的结论。

常见误区

以偏概全：仅报告均值而不报告离散指标（标准差、IQR），使读者无法判断数据的代表性。
忽略分布形态：均值和标准差仅对对称分布有良好解释力；对于偏态数据，应优先报告中位数和 IQR，而非强行使用均值。
异常值处理不当：不应无条件删除异常值——异常值可能包含测量误差，也可能揭示重要现象。应先识别、核查、记录，再决定处理策略。
混淆总体与样本：计算离散指标时需区分总体（分母 $N$ ）与样本（分母 $n-1$ ），否则方差估计将有系统偏差。
过度依赖统计量：任何数值指标都不能替代对原始数据的可视化检查——安斯库姆四重奏 (Anscombe's Quartet) 是最经典的警示：四组数据具有完全相同的均值、方差和相关系数，但散点图揭示出截然不同的数据结构。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。