ARTICLE
描述
描述 (Description) 在统计学中,描述(或称描述统计,Descriptive Statistics)是指通过数值指标、图表和汇总手段对数据集进行整理、概括和呈现的方法体系。它与推断统计 (Inferential Statistics) 共同构成统计学的两大分支。描述统计回答"数据说了什么",而推断统计回答"数据能让我们对总体得出什么结论"。描述统
描述 (Description)
在统计学中,描述(或称描述统计,Descriptive Statistics)是指通过数值指标、图表和汇总手段对数据集进行整理、概括和呈现的方法体系。它与推断统计 (Inferential Statistics) 共同构成统计学的两大分支。描述统计回答"数据说了什么",而推断统计回答"数据能让我们对总体得出什么结论"。描述统计是任何数据分析的起点——在进行假设检验或建模之前,研究者必须首先了解数据的分布特征、集中趋势和离散程度。
描述统计与推断统计的区分
描述统计仅关注样本本身,不涉及从样本到总体的推广。其产出包括均值、标准差、分位数、相关系数等汇总指标,以及直方图、箱线图、散点图等可视化手段。相比之下,推断统计依赖概率论和抽样分布,利用样本统计量对总体参数进行估计和检验。二者并非对立:描述统计为推断统计提供方向(如检验方法的选择往往取决于数据的偏度和峰度),而推断统计的结果也需要描述手段来呈现(如报告置信区间和效应量)。
集中趋势的度量
集中趋势 (Central Tendency) 描述数据分布的中心位置。三种最常用的度量是:
- 均值 (Mean):所有观测值的算术平均,。均值对异常值 (Outliers) 敏感,在偏态分布中可能偏离数据的"典型"位置。
- 中位数 (Median):将数据排序后位于中间位置的值。中位数对异常值稳健,在收入分布、房价等偏态数据中比均值更能代表"典型"水平。
- 众数 (Mode):出现频率最高的值。适用于分类数据和离散数据,在多峰分布中可揭示数据的聚类结构。
经济学中,均值与中位数的差距本身就是一个重要的描述指标。例如,美国家庭收入的均值显著高于中位数,直接揭示了收入分布的右偏特征和顶端的集中趋势。
离散程度的度量
离散程度 (Dispersion) 衡量数据围绕中心值的散布程度:
- 方差 (Variance) 和 标准差 (Standard Deviation):方差 ,标准差为其平方根。标准差与原始数据同单位,便于直观解释。
- 极差 (Range):最大值与最小值之差,简单但极度依赖极端值。
- 四分位距 (Interquartile Range, IQR):第三四分位数与第一四分位数之差,,覆盖中间50\%的数据,对异常值稳健。
- 变异系数 (Coefficient of Variation):,用于比较不同量纲或不同均值水平的数据集的相对离散程度。在金融学中,CV常用于比较不同投资标的的风险-收益特征。
分布形状的度量
除了位置和尺度,分布的"形状"也至关重要:
- 偏度 (Skewness):度量分布的对称性。偏度为零表示对称分布;正偏(右偏)意味着右尾更长,常见于收入、财富和股票回报数据;负偏(左偏)则较少见于经济数据。
- 峰度 (Kurtosis):度量分布的尾部厚度。正态分布的峰度约为3(超额峰度为0)。超额峰度为正(尖峰厚尾)意味着极端观测值出现的概率高于正态分布的预测,这在金融收益率数据中极为普遍,对风险管理和期权定价有深远影响。
雅克-贝拉检验 (Jarque-Bera Test) 利用偏度和峰度构建统计量,正式检验数据是否符合正态分布。该检验在计量经济学建模的前期诊断中被广泛使用。
分位数与排序统计
分位数 (Quantile) 将排序后的数据等比例分割。常见的分位数包括:
- 百分位数 (Percentile):第 百分位数意味着 的数据低于该值。第50百分位数即中位数。
- 四分位数 (Quartile):(第25百分位)、(中位数)、(第75百分位)。
- 五分位数 (Quintile) 和 十分位数 (Decile):在发展经济学和劳动经济学中,研究者常按收入五分位或十分位分组,比较各组的消费模式、教育回报或健康状况,以此揭示不平等格局。
关联性的描述度量
描述两个变量之间关系的最常用指标是皮尔逊相关系数 (Pearson Correlation Coefficient):
,度量的是线性关联的方向和强度。其局限在于:对非线性关系不敏感(如完美的二次关系可能产生接近于零的相关系数),且对异常值高度敏感。对于非线性单调关系,斯皮尔曼秩相关系数 (Spearman's Rank Correlation) 提供了稳健的替代方案。
交叉表 (Contingency Table) 和列联系数用于描述分类变量之间的关联,而协方差分析则将关联性的描述思路扩展到控制第三变量的情境。
图形化描述方法
图形是描述统计不可或缺的组成部分。关键工具包括:
- 直方图 (Histogram):展示连续变量的频率分布,柱的宽度(组距)选择显著影响图形外观和解读。
- 箱线图 (Box Plot):同时呈现中位数、IQR、极值和潜在异常值,是五数概括(最小值、、中位数、、最大值)的可视化表达。
- 散点图 (Scatter Plot):展示两个连续变量的联合分布,辅以Lowess平滑曲线可直观揭示非线性模式。
- 核密度估计 (Kernel Density Estimation):作为直方图的平滑替代,用连续曲线估计概率密度函数。
- 小提琴图 (Violin Plot):结合箱线图和核密度估计,同时呈现分布的汇总统计和整体形状。
描述统计在经济学中的应用
在实证经济学中,描述统计以"汇总统计表" (Summary Statistics Table) 的形式出现在几乎每一篇经验研究论文中。典型的汇总统计表按变量列出均值、标准差、最小值和最大值,通常还按处理组与对照组或不同年份分组展示,为读者提供数据的第一印象和组间可比性评估。
描述统计还构成了国民经济核算 (National Income Accounting) 的基础:GDP、CPI、失业率等宏观指标本质上都是对大规模微观数据的描述性汇总。基尼系数 (Gini Coefficient) 作为收入不平等的汇总描述指标,已成为公共政策讨论的标准语言。
局限与注意事项
描述统计虽然不可或缺,但存在显著局限。首先,它无法揭示因果关系:两个变量的高度相关可能源自混杂因素或反向因果。其次,汇总统计可能掩盖重要的异质性——安斯库姆四重奏 (Anscombe's Quartet) 经典地展示了四组均值、方差和相关系数几乎完全相同的数据集,在散点图中却呈现出截然不同的模式。最后,描述统计对数据质量和测量误差高度敏感,垃圾数据必然产生垃圾描述。因此,有效的描述分析必须与审慎的数据清洗、缺失值处理和敏感性检验相结合。