ARTICLE

描述

描述 (Description) 在统计学中，描述（或称描述统计，Descriptive Statistics）是指通过数值指标、图表和汇总手段对数据集进行整理、概括和呈现的方法体系。它与推断统计 (Inferential Statistics) 共同构成统计学的两大分支。描述统计回答"数据说了什么"，而推断统计回答"数据能让我们对总体得出什么结论"。描述统

浏览 5 更新 2025-10-26

描述 (Description)

在统计学中，描述（或称描述统计，Descriptive Statistics）是指通过数值指标、图表和汇总手段对数据集进行整理、概括和呈现的方法体系。它与推断统计 (Inferential Statistics) 共同构成统计学的两大分支。描述统计回答"数据说了什么"，而推断统计回答"数据能让我们对总体得出什么结论"。描述统计是任何数据分析的起点——在进行假设检验或建模之前，研究者必须首先了解数据的分布特征、集中趋势和离散程度。

描述统计与推断统计的区分

描述统计仅关注样本本身，不涉及从样本到总体的推广。其产出包括均值、标准差、分位数、相关系数等汇总指标，以及直方图、箱线图、散点图等可视化手段。相比之下，推断统计依赖概率论和抽样分布，利用样本统计量对总体参数进行估计和检验。二者并非对立：描述统计为推断统计提供方向（如检验方法的选择往往取决于数据的偏度和峰度），而推断统计的结果也需要描述手段来呈现（如报告置信区间和效应量）。

集中趋势的度量

集中趋势 (Central Tendency) 描述数据分布的中心位置。三种最常用的度量是：

均值 (Mean)：所有观测值的算术平均， $\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$ 。均值对异常值 (Outliers) 敏感，在偏态分布中可能偏离数据的"典型"位置。
中位数 (Median)：将数据排序后位于中间位置的值。中位数对异常值稳健，在收入分布、房价等偏态数据中比均值更能代表"典型"水平。
众数 (Mode)：出现频率最高的值。适用于分类数据和离散数据，在多峰分布中可揭示数据的聚类结构。

经济学中，均值与中位数的差距本身就是一个重要的描述指标。例如，美国家庭收入的均值显著高于中位数，直接揭示了收入分布的右偏特征和顶端的集中趋势。

离散程度的度量

离散程度 (Dispersion) 衡量数据围绕中心值的散布程度：

方差 (Variance) 和 标准差 (Standard Deviation)：方差 $s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$ ，标准差为其平方根。标准差与原始数据同单位，便于直观解释。
极差 (Range)：最大值与最小值之差，简单但极度依赖极端值。
四分位距 (Interquartile Range, IQR)：第三四分位数与第一四分位数之差， $IQR = Q_3 - Q_1$ ，覆盖中间50\%的数据，对异常值稳健。
变异系数 (Coefficient of Variation)： $CV = s / \bar{x}$ ，用于比较不同量纲或不同均值水平的数据集的相对离散程度。在金融学中，CV常用于比较不同投资标的的风险-收益特征。

分布形状的度量

除了位置和尺度，分布的"形状"也至关重要：

偏度 (Skewness)：度量分布的对称性。偏度为零表示对称分布；正偏（右偏）意味着右尾更长，常见于收入、财富和股票回报数据；负偏（左偏）则较少见于经济数据。
峰度 (Kurtosis)：度量分布的尾部厚度。正态分布的峰度约为3（超额峰度为0）。超额峰度为正（尖峰厚尾）意味着极端观测值出现的概率高于正态分布的预测，这在金融收益率数据中极为普遍，对风险管理和期权定价有深远影响。

雅克-贝拉检验 (Jarque-Bera Test) 利用偏度和峰度构建统计量，正式检验数据是否符合正态分布。该检验在计量经济学建模的前期诊断中被广泛使用。

分位数与排序统计

分位数 (Quantile) 将排序后的数据等比例分割。常见的分位数包括：

百分位数 (Percentile)：第 $p$ 百分位数意味着 $p\%$ 的数据低于该值。第50百分位数即中位数。
四分位数 (Quartile)： $Q_1$ （第25百分位）、 $Q_2$ （中位数）、 $Q_3$ （第75百分位）。
五分位数 (Quintile) 和 十分位数 (Decile)：在发展经济学和劳动经济学中，研究者常按收入五分位或十分位分组，比较各组的消费模式、教育回报或健康状况，以此揭示不平等格局。

关联性的描述度量

描述两个变量之间关系的最常用指标是皮尔逊相关系数 (Pearson Correlation Coefficient)：

r_{xy} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}

$r_{xy} \in [-1, 1]$ ，度量的是线性关联的方向和强度。其局限在于：对非线性关系不敏感（如完美的二次关系可能产生接近于零的相关系数），且对异常值高度敏感。对于非线性单调关系，斯皮尔曼秩相关系数 (Spearman's Rank Correlation) 提供了稳健的替代方案。

交叉表 (Contingency Table) 和列联系数用于描述分类变量之间的关联，而协方差分析则将关联性的描述思路扩展到控制第三变量的情境。

图形化描述方法

图形是描述统计不可或缺的组成部分。关键工具包括：

直方图 (Histogram)：展示连续变量的频率分布，柱的宽度（组距）选择显著影响图形外观和解读。
箱线图 (Box Plot)：同时呈现中位数、IQR、极值和潜在异常值，是五数概括（最小值、 $Q_1$ 、中位数、 $Q_3$ 、最大值）的可视化表达。
散点图 (Scatter Plot)：展示两个连续变量的联合分布，辅以Lowess平滑曲线可直观揭示非线性模式。
核密度估计 (Kernel Density Estimation)：作为直方图的平滑替代，用连续曲线估计概率密度函数。
小提琴图 (Violin Plot)：结合箱线图和核密度估计，同时呈现分布的汇总统计和整体形状。

描述统计在经济学中的应用

在实证经济学中，描述统计以"汇总统计表" (Summary Statistics Table) 的形式出现在几乎每一篇经验研究论文中。典型的汇总统计表按变量列出均值、标准差、最小值和最大值，通常还按处理组与对照组或不同年份分组展示，为读者提供数据的第一印象和组间可比性评估。

描述统计还构成了国民经济核算 (National Income Accounting) 的基础：GDP、CPI、失业率等宏观指标本质上都是对大规模微观数据的描述性汇总。基尼系数 (Gini Coefficient) 作为收入不平等的汇总描述指标，已成为公共政策讨论的标准语言。

局限与注意事项

描述统计虽然不可或缺，但存在显著局限。首先，它无法揭示因果关系：两个变量的高度相关可能源自混杂因素或反向因果。其次，汇总统计可能掩盖重要的异质性——安斯库姆四重奏 (Anscombe's Quartet) 经典地展示了四组均值、方差和相关系数几乎完全相同的数据集，在散点图中却呈现出截然不同的模式。最后，描述统计对数据质量和测量误差高度敏感，垃圾数据必然产生垃圾描述。因此，有效的描述分析必须与审慎的数据清洗、缺失值处理和敏感性检验相结合。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。