ARTICLE
描述统计
描述统计 (Descriptive Statistics) 描述统计是统计学两大核心分支之一(另一个是推断统计),其任务是对已有数据集合的整体特征进行概括、组织和呈现,而不涉及从样本推断总体的过程。描述统计回答"数据告诉我们什么"——通过数值指标和可视化手段,揭示数据的集中趋势、离散程度、分布形态等基本特征。 与推断统计不同,描述统计不依赖概率模型,也不对数
描述统计 (Descriptive Statistics)
描述统计是统计学两大核心分支之一(另一个是推断统计),其任务是对已有数据集合的整体特征进行概括、组织和呈现,而不涉及从样本推断总体的过程。描述统计回答"数据告诉我们什么"——通过数值指标和可视化手段,揭示数据的集中趋势、离散程度、分布形态等基本特征。
与推断统计不同,描述统计不依赖概率模型,也不对数据来源的总体做出假设。它是对数据本身的忠实刻画,是任何数据分析流程的起点。无论是探索性数据分析还是正式研究报告,描述统计都是不可或缺的第一步。
数据的类型
在讨论描述统计的具体方法之前,必须区分数据类型,因为不同类型的变量适用不同的描述手段:
- 分类变量 (Categorical / Qualitative):取值是类别标签而非数值。进一步分为名义变量(类别无序,如性别、血型)和序数变量(类别有自然顺序,如满意度评级"低/中/高"、教育程度"小学/初中/高中/大学")。
- 数值变量 (Numerical / Quantitative):取值是数字,可进行算术运算。进一步分为离散变量(取值可数,如家庭人口数、每月事故次数)和连续变量(取值不可数,如身高、体重、GDP)。
对于分类变量,描述统计主要使用频数、比例和众数;对于数值变量,则使用本节下文介绍的整套指标。
集中趋势的度量
集中趋势描述数据"中心"或"典型值"的位置。常用的三种度量指标各有其适用范围和数学性质。
算术平均数 (Arithmetic Mean)
总体均值记为 ,样本均值记为 。均值在数学上具有平方误差最小的性质——它是使 取极小值的 。这一性质使均值成为最小二乘法和回归分析的核心。但均值对异常值极为敏感:一个极端值即可显著拉动均值偏离数据主体的中心位置。
中位数 (Median)
将数据从小到大排序后,位于中间位置的值即为中位数。若数据个数为偶数,通常取中间两个数的均值。中位数的核心优势是稳健性:相对于均值,中位数不受极端值的任何影响(只要异常值不改变排序的中间位置)。因此在收入、房价等右偏分布的数据分析中,中位数往往比均值更具代表性。
众数 (Mode)
数据中出现频次最高的值。众数适用于各类数据,包括分类变量(如"最常选择的政治党派")。一个数据集可以没有众数、有单一众数(单峰)或有多个众数(双峰或多峰)。在描述多峰分布时,众数能揭示均值和中位数无法捕捉的结构。
三者关系与选择
在对称单峰分布中,均值 = 中位数 = 众数。在正偏(右偏)分布中,均值 > 中位数 > 众数;在负偏(左偏)分布中,均值 < 中位数 < 众数。这一排序关系本身即可用于判断分布的偏斜方向。
选择集中趋势指标的经验法则:对于大致对称且无异常值的数据,使用均值;对于偏态或有异常值的数据,使用中位数;对于分类数据或多峰结构,使用众数。
离散程度的度量
集中趋势仅描述数据"在哪儿",离散程度则描述数据"有多分散"。两者结合才能完整刻画分布。
全距 (Range) 与四分位距 (IQR)
全距 = 最大值 - 最小值,简单直观但受异常值影响极大。
四分位距 (Interquartile Range, IQR) 定义为第三四分位数与第一四分位数之差:。IQR 覆盖中间 50\% 的数据,是稳健的离散度量。与中位数配合使用的五数概括法(最小值、、中位数、、最大值)是箱线图 (Box Plot) 的基础。根据 Tukey 的建议,小于 或大于 的数据点通常被标记为潜在异常值。
方差与标准差 (Variance and Standard Deviation)
总体方差 ,样本方差 。样本方差使用 作为分母(贝塞尔校正),以确保其期望值等于总体方差,即 ,从而满足无偏性。
标准差 (或 )是方差的平方根,其量纲与原始数据一致,因此比方差更容易解释。标准差在正态分布中具有明确的概率含义:约 68\% 的数据落在 范围内,约 95\% 落在 范围内。
变异系数 (Coefficient of Variation, CV)
定义为标准差与均值的比率:()。CV 是无量纲数,用于比较不同量纲或不同量级数据的相对离散程度。例如,比较身高(厘米)和体重(千克)的变异时,标准差无法直接对比,但 CV 可以。
分布形态的度量
偏度 (Skewness)
描述数据分布的对称性。总体偏度定义为标准化的三阶中心矩:
对样本偏度,常用调整公式为 ,其中 。偏度为零表示对称分布(如正态分布);偏度为正表示右尾更长(如收入分布);偏度为负表示左尾更长。
峰度 (Kurtosis)
描述数据分布的尾部厚度或"尖峭"程度。总体峰度定义为标准化的四阶中心矩:
减去 3 使得正态分布的峰度为 0(称为"超额峰度")。正峰度(尖峰态,leptokurtic)表示尾部比正态分布更厚,数据中极端值出现的概率更高,常见于金融收益率数据;负峰度(扁峰态,platykurtic)表示尾部比正态分布更薄。
图形化描述方法
数值指标之外,图形是描述统计的另一核心工具:
- 直方图 (Histogram):将连续数据分组为等宽区间(bins),用柱高表示各区间内的频数或频率,直观展示分布的全局形态——对称性、偏度、峰度、多峰性等。
- 箱线图 (Box Plot):基于五数概括法,用矩形盒表示 IQR、盒内横线表示中位数、须线延伸至非异常值范围。特别适合比较多个组的分布差异。
- 茎叶图 (Stem-and-Leaf Plot):保留原始数据信息的图形,适合中等规模数据集(),在展示分布形态的同时可还原每个数据的精确值。
- 散点图 (Scatter Plot):用于描述两个数值变量之间的关系——方向、形态和强度,是相关系数分析和回归分析的视觉起点。
描述统计与推断统计的关系
描述统计与推断统计并非孤立的两套工具,而是数据分析的两个阶段。描述统计首先对样本进行概括,为后续的推断提供方向——例如,通过描述统计发现数据严重右偏后,可能触发变量对数化变换,或选择非参数检验方法。同时,推断统计的结果(如估计的参数、检验的 p 值)也必须与描述统计揭示的实际效应量(effect size)相结合,才能做出有实际意义的判断。仅报告 p 值而忽略均值、标准差和分布形态,可能导致统计显著但实际无意义的结论。
常见误区
- 以偏概全:仅报告均值而不报告离散指标(标准差、IQR),使读者无法判断数据的代表性。
- 忽略分布形态:均值和标准差仅对对称分布有良好解释力;对于偏态数据,应优先报告中位数和 IQR,而非强行使用均值。
- 异常值处理不当:不应无条件删除异常值——异常值可能包含测量误差,也可能揭示重要现象。应先识别、核查、记录,再决定处理策略。
- 混淆总体与样本:计算离散指标时需区分总体(分母 )与样本(分母 ),否则方差估计将有系统偏差。
- 过度依赖统计量:任何数值指标都不能替代对原始数据的可视化检查——安斯库姆四重奏 (Anscombe's Quartet) 是最经典的警示:四组数据具有完全相同的均值、方差和相关系数,但散点图揭示出截然不同的数据结构。