知经 KNOWECON · 卓越的经济金融统计数学学习平台

描述统计学

# 描述统计学 (Descriptive Statistics)

描述统计学 (Descriptive Statistics) 是{{{统计学}}}的一个主要分支,其核心目标是 总结、组织和呈现 数据的主要特征。它提供了一套方法,用以将大量、杂乱无章的原始{{{数据}}}转化为简洁、有意义和易于理解的摘要信息(无论是数值形式还是图形形式),从而揭示数据内在的分布规律和特征。

与{{{推断统计学}}} (Inferential Statistics) 相对,描述统计学并不试图从一个{{{样本}}} (Sample) 的数据中得出关于其所属{{{总体}}} (Population) 的结论或进行预测。它的作用域严格限定在所观察到的数据集本身。例如,计算一个班级所有学生的平均身高属于描述统计学的范畴;而使用这个班级的平均身高去估计全校学生的平均身高,则属于推断统计学的范畴。

描述统计学的方法主要可以分为三大类:集中趋势的度量、离散趋势的度量以及分布形态的度量。

## 集中趋势的度量 (Measures of Central Tendency)

集中趋势的度量 描述了数据集的"中心"或"典型"值在何处。它们旨在用一个单一的数值来代表整个数据集的平均水平。

* {{{平均数}}} (Mean): 最常用的集中趋势度量,通常指算术平均数。它的计算方法是将数据集中所有数值相加,再除以数值的个数。 对于一个包含 $n$ 个观测值的数据集 $\{x_1, x_2, \dots, x_n\}$,其样本平均数 $\bar{x}$ 的计算公式为: $$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$ 平均数的一个重要特性是它会利用到数据集中的每一个数值,但也因此极易受到{{{异常值}}} (Outlier) 的影响。一个或几个极端大或极端小的数值会显著地拉高或拉低平均数。

* {{{中位数}}} (Median): 中位数是将数据集按大小顺序排列后,位于最中间位置的数值。 * 如果数据集的观测值数量 $n$ 是奇数,中位数就是第 $\frac{n+1}{2}$ 个位置的数值。 * 如果 $n$ 是偶数,中位数通常定义为中间两个数值(即第 $\frac{n}{2}$ 个和第 $\frac{n}{2}+1$ 个)的平均数。 与平均数相比,中位数的一个显著优点是它的 稳健性 (Robustness) ,即它不受数据集中极端值的影响。因此,在收入、房价等可能存在极端值的偏斜分布数据中,中位数往往是比平均数更好的集中趋势代表。

* {{{众数}}} (Mode): 众数是数据集中出现频率最高的数值。一个数据集可能没有众数(所有数值出现频率相同),也可能有一个众数 (Unimodal)、两个众数 (Bimodal) 或多个众数 (Multimodal)。众数是唯一一个既可用于数值型数据,也可用于{{{分类数据}}} (Categorical Data) 的集中趋势度量。

## 离散趋势的度量 (Measures of Dispersion)

离散趋势的度量,也称为 变异性度量 (Measures of Variability),描述了数据集中各个数值相互分散或偏离中心的程度。它反映了数据集的一致性或波动性。

* {{{极差}}} (Range): 最简单的离散度量,等于数据集中最大值与最小值之差。 $$ \text{Range} = \max(x) - \min(x) $$ 极差的计算非常简单,但其缺点是只利用了两个极端数据点,忽略了中间数据的分布情况,并且对异常值极为敏感。

* {{{方差}}} (Variance): 方差是度量数据分散程度的一个更稳健和常用的指标。它被定义为各个数据点与其平均数之差的平方的平均值。 总体方差 ($\sigma^2$) 的公式为: $$ \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N} $$ 其中 $\mu$ 是总体平均数,N 是总体大小。 样本方差 ($s^2$) 的公式为: $$ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1} $$ 注意,在计算样本方差时,分母是 $n-1$ 而不是 $n$。这是为了对方差进行无偏估计,这个 $n-1$ 称为{{{自由度}}} (Degrees of Freedom)。方差的单位是原始数据单位的平方,这使得其在解释上不够直观。

* {{{标准差}}} (Standard Deviation): 标准差是方差的平方根,用 $\sigma$ (总体) 或 $s$ (样本) 表示。 $$ s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} $$ 标准差是应用最广泛的离散度量。它的优点在于其单位与原始数据的单位相同,因此更易于解释。一个较小的标准差意味着数据点倾向于紧密地聚集在平均数周围;一个较大的标准差则表示数据点分布范围更广。

* {{{四分位距}}} (Interquartile Range, IQR): IQR 是另一种稳健的离散度量,它描述了数据中间50%的分布范围。首先将数据排序并分为四个相等的部分,得到三个分割点,即{{{四分位数}}}:$Q_1$ (第一四分位数,25%位置)、$Q_2$ (第二四分位数,即中位数)、$Q_3$ (第三四分位数,75%位置)。 IQR 的计算公式为: $$ \text{IQR} = Q_3 - Q_1 $$ 由于 IQR 只关注数据中间的部分,它和中位数一样,不受极端异常值的影响。

## 分布形态的度量 (Measures of Shape)

分布形态的度量描述了数据分布的形状特征,主要包括偏度和峰度。

* {{{偏度}}} (Skewness): 偏度衡量了数据分布的对称性。 * 对称分布 (Symmetric Distribution):偏度约等于0。平均数、中位数和众数大致相等。 * 正偏态 (Positive Skew) 或右偏态 (Right-skewed):偏度大于0。分布的尾部向右侧延伸,数据集中包含一些较大的异常值。在这种情况下,通常有 $\text{平均数} > \text{中位数} > \text{众数}$。 * 负偏态 (Negative Skew) 或左偏态 (Left-skewed):偏度小于0。分布的尾部向左侧延伸,数据集中包含一些较小的异常值。在这种情况下,通常有 $\text{平均数} < \text{中位数} < \text{众数}$。

* {{{峰度}}} (Kurtosis): 峰度衡量了数据分布的"尖峰"程度或"尾部厚重"程度,通常与{{{正态分布}}} (Normal Distribution) 进行比较。 * 正态峰 (Mesokurtic):峰度值约等于3(或在一些软件中,超额峰度约等于0)。形状与正态分布相似。 * 尖峰态 (Leptokurtic):峰度值大于3。分布比正态分布更尖,尾部更"厚",这意味着出现极端值的{{{概率}}}更高。 * 平峰态 (Platykurtic):峰度值小于3。分布比正态分布更平坦,尾部更"薄"。

## 数据可视化 (Data Visualization)

除了数值摘要,描述统计学还大量使用图形工具来呈现数据,这通常是理解数据的第一步。

* {{{直方图}}} (Histogram):用于展示连续型数据的频率分布。 * {{{条形图}}} (Bar Chart):用于比较不同类别的数据。 * {{{箱形图}}} (Box Plot):一种非常有效的数据可视化方法,可以同时展示中位数、四分位数、极差以及识别潜在的异常值。 * {{{散点图}}} (Scatter Plot):用于观察两个数值型变量之间的关系或模式。