ARTICLE

负偏度

负偏度(Negative Skewness / Left Skewness)是指概率分布或数据集中左侧尾部比右侧尾部更长、更肥厚的非对称形态特征。在负偏(左偏)分布中,均值小于中位数,中位数又小于众数,大部分观测值集中在分布的高端(右侧),而少数极端低值将尾部向左拉长。负偏度广泛存在于经济学、金融学、保险精算和可靠性工程等领域,其识别与度量对于风险建模、统计

浏览 1 更新 2025-11-10

负偏度(Negative Skewness / Left Skewness)是指概率分布或数据集中左侧尾部比右侧尾部更长、更肥厚的非对称形态特征。在负偏(左偏)分布中,均值小于中位数,中位数又小于众数,大部分观测值集中在分布的高端(右侧),而少数极端低值将尾部向左拉长。负偏度广泛存在于经济学、金融学、保险精算和可靠性工程等领域,其识别与度量对于风险建模、统计推断和决策分析具有重要影响。

1. 负偏度的定义与度量

1.1 偏度的数学定义

偏度(Skewness)是衡量概率分布不对称程度的统计量,其三阶标准矩定义为

γ1=E[(Xμσ)3]=μ3σ3\gamma_1 = \mathbb{E}\left[\left(\frac{X - \mu}{\sigma}\right)^3\right] = \frac{\mu_3}{\sigma^3}

其中 μ\mu 为均值,σ\sigma 为标准差,μ3\mu_3 为三阶中心矩。当 γ1<0\gamma_1 < 0 时,称分布具有负偏度;γ1>0\gamma_1 > 0 为正偏;γ1=0\gamma_1 = 0 表示对称分布(如正态分布)。负偏度的绝对值越大,分布的左尾越厚、右尾越薄,数据向右侧集中的程度越强。

1.2 样本偏度的估计

对于容量为 nn 的样本 {x1,x2,,xn}\{x_1, x_2, \dots, x_n\},常用 Fisher-Pearson 标准化矩系数估计总体偏度:

g1=n(n1)(n2)i=1n(xixˉs)3g_1 = \frac{n}{(n-1)(n-2)} \sum_{i=1}^n \left(\frac{x_i - \bar{x}}{s}\right)^3

其中 xˉ\bar{x} 为样本均值,ss 为样本标准差。该估计量是渐近无偏的,在大样本下近似服从均值为 γ1\gamma_1、方差为 6/n6/n 的正态分布,为偏度显著性检验提供了理论基础。

1.3 负偏度与均值—中位数—众数关系

负偏分布中,三个中心位置的排序为:

众数中位数均值\text{众数} \geq \text{中位数} \geq \text{均值}

均值落在中位数的左侧,是因为左尾的极端低值对均值产生了较大的下拉作用;众数作为密度函数的峰值点,位于分布的集中区域右侧。这一排序关系常被用作判断偏度方向的直观工具。

2. 负偏度的主要成因

2.1 结构性约束与边界效应

许多经济变量存在天然的边界约束,导致分布呈现负偏形态。例如,利率不能低于零(零下限约束),当利率水平接近零时,进一步下降的空间被压缩,而上升的空间相对较大,从而使分布向右偏——但若考虑的是利率变化幅度,宽松周期下的多次小幅降息则会形成左尾累积,产生负偏特征。又如,产品质量指标通常具有上限(如满分100分),高分集中使得分布左尾拉长。

2.2 非对称冲击与风险结构

在金融时间序列中,资产收益率往往表现出负偏特征,即市场倾向于出现幅度较大但概率较低的负向跳跃,而正向收益则更频繁但幅度较小。这种行为被归因于杠杆效应——当股价下跌时,公司的财务杠杆上升,波动率增大,从而进一步增加了大幅下跌的概率。股票指数日收益率的偏度系数通常为负,幅度在 0.5-0.51.5-1.5 之间,这一点已被大量实证研究所证实。

2.3 选择性抽样与生存偏差

在某些样本构造过程中,数据筛选会人为地改变偏度方向。以基金业绩研究为例,若只考察存续期内的基金,那些业绩极差的基金因清盘而退出样本,导致观测到的收益率分布呈现负偏——即大部分基金收益率在中等水平以上,少数极差的基金拉长了左尾。同类现象也出现在企业生存分析、创新失败研究等领域。

3. 负偏度的统计推断问题

3.1 偏度显著性检验

零假设 H0:γ1=0H_0: \gamma_1 = 0 的检验可使用 D'Agostino (1970) 提出的检验统计量。该检验首先构造偏度系数的变换量:

Z=δsinh1(g1α)Z = \delta \cdot \sinh^{-1}\left(\frac{g_1}{\alpha}\right)

其中 α\alphaδ\delta 为由样本量决定的参数。在原假设下,ZZ 近似服从标准正态分布。当样本量较小时,也可采用基于自助法(Bootstrap)的置信区间方法,该法不依赖分布假设,具有更好的稳健性。

3.2 负偏度对经典统计方法的影响

负偏度对经典统计方法的影响不容忽视。在回归分析中,残差的负偏分布意味着最小二乘估计量虽仍具有线性无偏性,但其有限样本效率降低,且基于正态假设的 tt 检验和 FF 检验的实际显著性水平可能与名义水平偏离。在方差分析(ANOVA)中,偏度会导致 FF 统计量的分布右移,增加第一类错误的概率。Bootstrapping 和基于秩次的非参数方法可以在一定程度上缓解这些问题。

4. 负偏数据的数据变换方法

4.1 反射—对数变换

对于严格负偏的正值数据,可先进行反射变换(Reflection Transformation)将负偏转为正偏,再应用适用于正偏的变换方法。具体而言,定义反射变量 Y=max(X)+1XY = \max(X) + 1 - X,然后对 YY 取对数:Z=ln(Y)Z = \ln(Y)。这一组合变换能够有效抑制左尾的极端值,使数据更接近对称分布。

4.2 Box-Cox 变换的灵活应用

Box-Cox 变换族为减轻偏度提供了系统化框架:

X(λ)={Xλ1λ,λ0lnX,λ=0X^{(\lambda)} = \begin{cases} \frac{X^\lambda - 1}{\lambda}, & \lambda \neq 0\\ \ln X, & \lambda = 0 \end{cases}

对于负偏数据,通常需要 λ>1\lambda > 1 的参数来收缩左尾并拉伸右尾。由于 Box-Cox 变换要求变量严格为正,对于含有非正值的负偏数据,可引入位置参数 cc:对 X+cX + c 实施变换,并通过最大似然方法联合估计 λ\lambdacc

4.3 幂变换族

Yeo-Johnson 变换是 Box-Cox 变换的扩展,它允许对负值进行变换而无需位移。其定义分段给出,当 X0X \geq 0 时与 Box-Cox 一致;当 X<0X < 0 时采用对称形式。该变换既能处理负偏也能处理正偏数据,且在大数据流水线中易于自动化。

5. 负偏度在风险管理中的应用

5.1 在险价值(VaR)与预期亏损(ES)

在金融风险管理中,负偏度直接决定了风险度量指标的准确性。假设风险因子的收益率服从负偏分布,若使用正态分布建模,则会系统性地低估左尾极端损失的概率。例如,考虑一个偏度为 1.2-1.2 的收益率分布,在 99\% 置信水平下,正态假设的 VaR 可能比实际值低 20\%–40\%。预期亏损(Expected Shortfall, ES)对尾部形态更为敏感,负偏度对其影响更为显著。

5.2 偏度风险溢价

资产定价理论表明,投资者对负偏资产要求额外的风险补偿,即偏度风险溢价。具有较大负偏度的资产,因其面临巨大的下行跳跃风险,投资者要求更高的预期收益率作为补偿。这一效应在期权市场中尤为突出:虚值看跌期权的隐含波动率显著高于虚值看涨期权,反映了市场对负向极端事件的定价(即波动率微笑的偏斜现象)。Harvey 和 Siddique (2000) 将条件偏度引入资本资产定价模型,发现系统性的负偏度风险在截面资产收益率中具有显著的定价能力。

6. 负偏度的常见误区

6.1 "负偏度意味着大部分数据为负值"

这是最常见的误解。负偏度描述的是分布尾部的方向,而非数值的符号。许多负偏分布的观测值全部为正——例如,某地区家庭收入分布通常呈负偏,高收入家庭集中在右侧,但所有数值仍为正。偏度的符号与数据的符号是两回事。

6.2 "偏度为零即为正态分布"

偏度为零是正态分布的必要条件,但不是充分条件。许多非正态分布(如对称的 t 分布、Logistic 分布、均匀分布)的偏度也为零。因此,仅凭偏度为零无法确认正态性,还需要考察峰度(Kurtosis)以及进行正态性检验(如 Shapiro-Wilk 检验或 Jarque-Bera 检验)。

6.3 "消除偏度后数据一定服从正态分布"

变换后的数据虽可大幅降低偏度的绝对值,但变换本身并不保证数据的正态性。例如,对数正态分布取对数后变为正态分布,但更一般的 Box-Cox 变换仅能使数据向对称方向改善,未必实现精确的正态性。因此,变换后的数据仍应通过正态性检验加以确认。

7. 负偏度的软件实现

主流统计软件均提供偏度计算功能。在 R 中,可使用 \texttt{moments} 包的 \texttt{skewness()} 函数或 \texttt{e1071} 包的 \texttt{skewness()} 函数;Python 中,\texttt{pandas.Series.skew()} 和 \texttt{scipy.stats.skew()} 均直接返回样本偏度系数;MATLAB 的 \texttt{skewness()} 函数支持三种不同的偏度定义(矩系数、Fisher-Pearson 调整系数和样本中位数为基础的稳健偏度)。对于大规模数据,建议结合自助法计算偏度的置信区间,以评估估计量的抽样波动性。

拓展阅读

  • Bulmer, M. G. (1979). *Principles of Statistics*. Dover Publications.
  • D'Agostino, R. B. (1970). "Transformation to Normality of the Null Distribution of g1". *Biometrika*, 57(3), 679–681.
  • Harvey, C. R., \& Siddique, A. (2000). "Conditional Skewness in Asset Pricing Tests". *Journal of Finance*, 55(3), 1263–1295.
  • Yeo, I.-K., \& Johnson, R. A. (2000). "A New Family of Power Transformations to Improve Normality or Symmetry". *Biometrika*, 87(4), 954–959.