ARTICLE
描述性统计
描述性统计 (Descriptive Statistics) 描述性统计 (Descriptive Statistics) 是统计学的一个主要分支,其核心目标是使用图表、表格和概括性数值来组织、总结和呈现数据集的内在特征。它专注于描述样本或总体的基本情况,而不试图基于这些数据对更大的总体(Population)做出推断或预测。描述性统计是进行任何定量分析的第
描述性统计 (Descriptive Statistics)
描述性统计 (Descriptive Statistics) 是统计学的一个主要分支,其核心目标是使用图表、表格和概括性数值来组织、总结和呈现数据集的内在特征。它专注于描述样本或总体的基本情况,而不试图基于这些数据对更大的总体(Population)做出推断或预测。描述性统计是进行任何定量分析的第一步,也是后续进行推断统计 (Inferential Statistics) 的基础。
描述性统计的核心目的
描述性统计旨在回答关于数据集的几个基本问题:
- 数据的“中心”在哪里?(集中趋势)
- 数据的分布有多分散或多集中?(离散程度)
- 数据的分布形状是怎样的?(分布形态)
为了回答这些问题,统计学家开发了一系列测量指标和可视化工具。
描述性统计的主要度量
这些度量可以分为三类:集中趋势的度量、离散程度的度量和分布形态的度量。
一、集中趋势的度量 (Measures of Central Tendency)
集中趋势的度量用于识别数据集的中心位置或“典型”值。最常用的指标包括:
- 均值 (Mean):指所有数据点总和除以数据点数量。通常我们指的是算术平均值。
- 总体均值 () 的计算公式为:
其中 是总体中的个体总数。
- 样本均值 () 的计算公式为:
其中 是样本中的观测值数量。
- 特点:均值利用了数据集中的所有信息,但它对异常值 (Outliers) 非常敏感。一个极端大或极端小的值就能显著地影响均值。
- 中位数 (Median):将数据集按大小顺序排列后,位于最中间位置的数值。
- 如果数据集有奇数个观测值,中位数就是正中间的那个数。
- 如果数据集有偶数个观测值,中位数通常定义为中间两个数的平均值。
- 特点:中位数不受极端异常值的影响,因此在数据分布不对称或存在异常值时,它比均值更能代表数据的中心位置。这种特性被称为稳健性 (Robustness)。
- 众数 (Mode):数据集中出现频率最高的数值。
- 一个数据集可以没有众数(所有值出现频率相同),有一个众数(单峰分布),或有多个众数(如双峰分布、多峰分布)。
- 特点:众数是唯一可以用于定类数据 (Categorical Data) 的集中趋势度量,例如调查中最常出现的颜色或品牌。
二、离散程度的度量 (Measures of Dispersion / Variability)
离散程度的度量描述了数据点围绕中心值的散布情况。
- 极差 (Range):数据集中最大值与最小值之差。
- 公式:
- 特点:计算简单,但它只依赖于两个极端值,因此对异常值极为敏感,不能很好地反映整体数据的离散情况。
- 方差 (Variance):每个数据点与均值之差的平方的平均值。它度量了数据偏离均值的平均程度。
- 总体方差 () 的公式为:
- 样本方差 () 的公式为:
- 注意:样本方差的分母是 ,这被称为贝塞尔校正 (Bessel's Correction)。使用 而不是 是为了得到总体方差 的一个无偏估计量,这与自由度 (Degrees of Freedom) 的概念有关。
- 标准差 (Standard Deviation):方差的平方根。
- 总体标准差:
- 样本标准差:
- 特点:标准差是应用最广泛的离散度量。与方差相比,它的主要优势在于其单位与原始数据相同,因此更易于解释。例如,如果数据是身高的厘米数,标准差的单位也是厘米,而方差的单位是平方厘米。
- 四分位距 (Interquartile Range, IQR):第三四分位数 () 与第一四分位数 () 之差。
- 公式:
- 是数据的第25个百分位数, 是第75个百分位数。IQR 包含了数据中间的50\%。
- 特点:与中位数类似,IQR 对异常值具有稳健性,因此在数据分布倾斜时是衡量离散程度的良好指标。它常用于构建箱形图 (Box Plot)。
三、分布形态的度量 (Measures of Shape)
这类度量描述了数据分布的对称性和峰态。
- 偏度 (Skewness):衡量数据分布不对称性的指标。
- 零偏度:分布完全对称,如正态分布 (Normal Distribution),此时均值 = 中位数 = 众数。
- 正偏度(右偏):分布的尾部向右延伸,大多数数据集中在左侧。此时,均值 > 中位数 > 众数。
- 负偏度(左偏):分布的尾部向左延伸,大多数数据集中在右侧。此时,均值 < 中位数 < 众数。
- 峰度 (Kurtosis):衡量数据分布尖峰程度和尾部厚度的指标。它通常与正态分布进行比较。
- 正态峰(Mesokurtic):峰度值约为3(或超额峰度为0),具有与正态分布相似的峰态和尾部。
- 尖峰(Leptokurtic):峰度值大于3,分布比正态分布更“尖峭”,尾部更“厚”,意味着存在更多极端值。
- 低峰(Platykurtic):峰度值小于3,分布比正态分布更“平坦”,尾部更“薄”,意味着极端值较少。
描述性统计的图表方法
除了数值度量,图形化是描述性统计中不可或缺的一部分,它能直观地揭示数据的模式和结构。
- 频率分布表 (Frequency Distribution Table):将数据分组,并显示每个组的频数或频率。
- 条形图 (Bar Chart):用于展示定类数据的频数或频率,每个类别用一个独立的条形表示。
- 直方图 (Histogram):用于展示定量数据 (Quantitative Data) 的频率分布。它将连续数据分成若干区间(或“箱子”),并用条形的高度表示落在每个区间内的数据频率。直方图的条形是连续的,而条形图的条形是分离的。
- 箱形图 (Box Plot):一种能同时显示多种描述性统计量的图形,包括最小值、Q1、中位数、Q3和最大值。它对于比较不同组的数据分布以及识别异常值非常有效。
- 散点图 (Scatter Plot):用于展示两个定量变量之间的关系。图上每个点代表一个观测值,其水平和垂直位置由两个变量的值决定。散点图是进行相关分析 (Correlation Analysis) 和回归分析 (Regression Analysis) 的第一步。
总结
描述性统计是数据分析的基石。它通过简洁的数值和直观的图表,将复杂、庞大的原始数据转化为易于理解的信息。无论是在经济学中分析通货膨胀率的变化,还是在金融学中评估一项投资的回报率和风险(通常用均值和标准差来衡量),描述性统计都发挥着至关重要的作用。掌握这些基本工具是理解更高级统计方法和做出数据驱动决策的前提。