知经 KNOWECON · 卓越的经济金融统计数学学习平台

偏度

# 偏度 (Skewness)

偏度 (Skewness),在{{{概率论}}}和{{{统计学}}}中,是衡量一个{{{概率分布}}}或数据集{{{对称性}}}程度的度量。它描述了分布的尾部相对于其中心的不对称性方向和程度。偏度是分布的第三阶{{{标准化矩}}}。

理解偏度对于经济、金融和统计分析至关重要,因为它揭示了{{{均值}}} (Mean) 作为分布中心位置度量的代表性,并提供了关于极端值({{{outliers}}})可能出现方向的重要信息。

## 偏度的类型与直观理解

偏度可以分为三种主要类型,其直观判断依据是分布曲线拖尾的方向。

一. 正偏度 (Positive Skewness)右偏 (Right-skewed) * 特征:分布的右侧尾部比左侧尾部长。大部分数据点集中在左侧,而少数极大的值将分布的尾部向右拉伸。 * 均值、中位数、众数的关系:在这种情况下,通常存在以下关系:{{{均值}}} > {{{中位数}}} > {{{众数}}}。这是因为极大的异常值会显著拉高算术平均值(均值),而对中位数的影响较小,对众数则几乎没有影响。 * 例子:个人{{{收入分配}}}是一个典型的正偏分布。大多数人的收入集中在较低的水平,而少数极高收入者使得分布向右侧有一个长长的尾巴。

二. 负偏度 (Negative Skewness)左偏 (Left-skewed) * 特征:分布的左侧尾部比右侧尾部长。大部分数据点集中在右侧,而少数极小的值将分布的尾部向左拉伸。 * 均值、中位数、众数的关系:在这种情况下,关系通常相反:{{{均值}}} < {{{中位数}}} < {{{众数}}}。极小值将均值向左拉低。 * 例子:一次非常简单的考试的得分分布。大多数学生都能取得高分,集中在分数区间的右侧,而少数表现不佳的学生的分数构成了左侧的长尾。

三. 零偏度 (Zero Skewness) * 特征:分布是完全对称的。分布在均值两侧的形状完全相同。 * 均值、中位数、众数的关系:对于一个完全对称的单峰分布,三者是相等的:{{{均值}}} = {{{中位数}}} = {{{众数}}}。 * 例子:{{{正态分布}}} (Normal Distribution) 是最著名的零偏度对称分布。

## 数学定义与计算

偏度在数学上被定义为分布的三阶{{{中心矩}}}与{{{标准差}}}的三次方的比值。

设 $X$ 是一个随机变量,其均值为 $\mu$,标准差为 $\sigma$。其三阶中心矩为 $m_3 = E[(X-\mu)^3]$,二阶中心矩(即{{{方差}}})为 $m_2 = \sigma^2 = E[(X-\mu)^2]$。

总体偏度 (Population Skewness) 的计算公式为:

$$ \gamma_1 = E\left[\left(\frac{X-\mu}{\sigma}\right)^3\right] = \frac{E[(X-\mu)^3]}{(E[(X-\mu)^2])^{3/2}} = \frac{m_3}{\sigma^3} $$

对于一个由 $N$ 个数据点 ${x_1, x_2, $...$, x_N}$ 组成的{{{总体}}},其偏度可以计算为:

$$ g_1 = \frac{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^3}{(\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2)^{3/2}} $$

其中 $\mu$ 是总体均值。

样本偏度 (Sample Skewness) 是根据{{{样本}}}数据对总体偏度的估计。一个常用的、有偏的估计量公式是:

$$ g_1 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3} $$

其中 $\bar{x}$ 是样本均值,$s$ 是样本标准差。

然而,为了得到一个对总体偏度的{{{无偏估计量}}},统计软件(如 Excel, SPSS, R, Python 的 `scipy.stats`)通常使用调整后的公式。对于一个包含 $n$ 个观测值的样本,调整后的样本偏度 $G_1$ 计算如下:

$$ G_1 = \frac{k_3}{k_2^{3/2}} = \frac{\sqrt{n(n-1)}}{n-2} \left( \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^3}{s_n^3} \right) = \frac{n}{(n-1)(n-2)}\sum_{i=1}^{n}\left(\frac{x_i - \bar{x}}{s}\right)^3 $$

其中 $s$ 是使用 $(n-1)$ 作为分母的样本标准差。这个调整系数 $\frac{\sqrt{n(n-1)}}{n-2}$ 在样本量 $n$ 较大时趋近于1。

## 偏度值的解释

* $\gamma_1 = 0$:表示分布是完全对称的。 * $\gamma_1 > 0$:表示分布为正偏或右偏。值越大,右偏程度越高。 * $\gamma_1 < 0$:表示分布为负偏或左偏。值越小(绝对值越大),左偏程度越高。

作为一般性的参考准则(具体标准可能因研究领域而异): * 如果偏度值在 -0.5 和 0.5 之间,数据被认为是 大致对称的。 * 如果偏度值在 -1 和 -0.5 之间0.5 和 1 之间,数据被认为是 中等偏斜的。 * 如果偏度值 小于 -1大于 1,数据被认为是 高度偏斜的

## 在经济与金融中的重要性

偏度不仅仅是一个描述性统计量,它在理论和实践中都具有深刻的含义。

1. {{{投资组合管理}}}与资产定价 投资者通常不仅仅关心预期收益(均值)和风险(方差),他们还关心收益的分布形态。正偏度的{{{收益率分布}}}对投资者可能更有吸引力,因为它意味着存在获得异常高回报的可能性(尽管概率很小),类似于彩票效应。相反,负偏度的收益率分布意味着存在发生极端损失的"{{{尾部风险}}}",这是大多数风险规避型投资者希望避免的。因此,在构建{{{投资组合}}}时,偏度是现代{{{金融建模}}}中一个重要的考量因素。

2. {{{风险管理}}} 许多传统的金融风险模型(如早期的{{{价值在险 (Value at Risk)}}}模型)假设资产收益率服从正态分布(即零偏度)。然而,金融市场的现实是,资产收益率往往呈现负偏度,这意味着极端负收益(市场崩盘)的发生概率比正态分布所预测的要高。忽视负偏度会严重低估{{{下行风险}}},可能导致灾难性的损失。因此,更先进的风险模型,如使用{{{期望亏空 (Expected Shortfall)}}}或考虑偏态分布的模型,对于准确的{{{风险管理}}}至关重要。

3. {{{计量经济学}}}分析 许多{{{计量经济学}}}模型(例如{{{线性回归}}})的假设之一是残差项服从正态分布。如果数据本身存在严重的偏度,可能会导致模型估计的偏差和无效。在这种情况下,研究人员常常需要对数据进行{{{数据转换}}}(如{{{对数转换}}}来修正正偏度),以使数据更接近对称分布,从而满足模型的假设。

## 与峰度的关系

偏度衡量分布的不对称性,而另一个重要的统计量{{{峰度}}} (Kurtosis) 衡量分布尾部的“肥胖”程度,即产生极端值(离群值)的倾向。偏度和峰度共同描述了数据分布偏离正态分布的形态特征,它们是理解和建模复杂现实世界数据的关键工具。