ARTICLE

收入分布

收入分布 (Income Distribution) 收入分布(Income Distribution)是指一个经济体中个人或家庭收入水平的概率分布,描述不同收入水平对应的人口频率或密度。收入分布是收入分配研究的核心对象,也是福利经济学、公共经济学和发展经济学中分析不平等、贫困与社会福利的经验基础。 函数描述 收入分布可以用两种等价的数学形式刻画。设随机变量

浏览 0 更新 2025-12-20

收入分布 (Income Distribution)

收入分布(Income Distribution)是指一个经济体中个人或家庭收入水平的概率分布,描述不同收入水平对应的人口频率或密度。收入分布是收入分配研究的核心对象,也是福利经济学公共经济学发展经济学中分析不平等、贫困与社会福利的经验基础。

函数描述

收入分布可以用两种等价的数学形式刻画。设随机变量Y>0Y > 0表示个人或家庭收入,其累积分布函数(CDF)为:

F(y)=Pr(Yy)F(y) = \Pr(Y \leq y)

表示收入不超过yy的人口比例。对应的概率密度函数(PDF)为f(y)=F(y)f(y) = F'(y),满足归一化条件0f(y)dy=1\int_{0}^{\infty} f(y)\,dy = 1

从收入分布出发,可以推导出多个重要的汇总统计量:均值(人均收入)μ=0yf(y)dy\mu = \int_{0}^{\infty} y f(y)\,dy,中位数mm满足F(m)=0.5F(m) = 0.5,以及各分位数和分位数比率(如P90/P10比率)。收入分布的正偏态(右偏)特征——即中位数低于均值——是几乎所有经济体的经验规律。

常见参数模型

经济学家和统计学家提出了多种参数分布来拟合经验收入数据,主要包括以下几类:

帕累托分布(Pareto Distribution)。由维尔弗雷多·帕累托于1896年提出,其密度函数为:

f(y)=αyminαyα+1,yymin>0,  α>1f(y) = \frac{\alpha y_{\min}^{\alpha}}{y^{\alpha + 1}}, \quad y \geq y_{\min} > 0, \; \alpha > 1

帕累托分布对高收入尾部拟合效果极佳,帕累托的原始观察——约20\%的人口拥有约80\%的收入——正源于此。参数α\alpha(帕累托指数)越小,尾部越厚,不平等越严重。

对数正态分布(Lognormal Distribution)。由罗伯特·吉布拉(Robert Gibrat)于1931年引入收入分析。若lnYN(μ,σ2)\ln Y \sim N(\mu, \sigma^{2}),则YY服从对数正态分布:

f(y)=1yσ2πexp((lnyμ)22σ2),y>0f(y) = \frac{1}{y\sigma\sqrt{2\pi}} \exp\left(-\frac{(\ln y - \mu)^{2}}{2\sigma^{2}}\right), \quad y > 0

参数σ\sigma控制离散程度:σ\sigma越大,分布越分散,基尼系数越高。对数正态分布对中等收入群体的拟合良好,但对极高收入的尾部描述往往不足。

伽马分布(Gamma Distribution)。作为对数正态的替代方案,伽马分布同样具有正偏态和右尾特性,其密度为:

f(y)=βαΓ(α)yα1eβy,y>0,  α>0,  β>0f(y) = \frac{\beta^{\alpha}}{\Gamma(\alpha)} y^{\alpha - 1} e^{-\beta y}, \quad y > 0, \; \alpha > 0, \; \beta > 0

其中α\alpha为形状参数,β\beta为尺度参数。伽马分布的优势在于数学处理的便利性。

Singh-Maddala分布与Dagum分布。这两类三参数分布分别由Singh与Maddala(1976)和Dagum(1977)提出,属于Burr分布族,能灵活捕捉收入分布在不同区段(低收入、中等收入、高收入)的形态差异。它们在拟合完整收入分布方面通常优于帕累托和对数正态分布,是当今世界银行和国际劳工组织收入统计的标准模型。

双参数混合模型。经验研究表明,单一分布往往难以同时刻画收入分布的主体(中等收入群体)和尾部(极高收入群体)。一种常见策略是采用帕累托-对数正态混合:在阈值yy^{*}以下使用对数正态分布,以上使用帕累托分布,并在连接点处保证连续性。这一做法在托马斯·皮凯蒂(Thomas Piketty)及其合作者的收入不平等研究中被广泛采用。

与不平等测度的关系

收入分布是构建所有不平等指标的基础。从f(y)f(y)出发:

洛伦兹曲线可表示为:

L(p)=1μ0F1(p)yf(y)dyL(p) = \frac{1}{\mu} \int_{0}^{F^{-1}(p)} y f(y)\,dy

其中F1(p)F^{-1}(p)为第pp分位数。基尼系数则通过双重积分计算:

G=12μ00y1y2f(y1)f(y2)dy1dy2G = \frac{1}{2\mu} \int_{0}^{\infty} \int_{0}^{\infty} |y_1 - y_2|\, f(y_1) f(y_2)\, dy_1 dy_2

此外,广义熵指数族——包括泰尔指数(Theil Index)和平均对数偏差(Mean Log Deviation)——以及阿特金森指数(Atkinson Index)均可从收入分布的加权积分中导出。不同的不平等指标对分布的不同区段赋予不同的敏感性权重:基尼系数对中等收入转移最敏感,泰尔指数对高收入转移更敏感,而平均对数偏差对低收入转移最敏感。

经验规律与典型事实

跨国经验研究揭示了收入分布的若干典型事实(Stylized Facts):

第一,右偏与厚尾。所有经济体的收入分布均呈现显著右偏,即少数高收入者拉长了右尾。这一特征不分发展阶段、政治制度或文化背景,具有普遍性。

第二,双峰趋势。部分发达国家(尤其是美国)的收入分布在去工业化进程中出现了"中空"现象——中等收入群体萎缩,低收入和高收入群体膨胀,形成双峰或多峰形态。这与劳动力市场的技能偏向型技术进步全球化密切相关。

第三,幂律尾部。极高收入群体(如前1\%甚至前0.1\%)的收入分布几乎无一例外地遵循幂律(即帕累托分布),这一规律由维尔弗雷多·帕累托首次发现,在当代微观数据(税务记录、调查数据)中反复得到验证。幂律指数α\alpha的下降意味着超级富豪攫取了更大份额的总收入增长。

第四,库兹涅茨倒U形曲线与分布的演化。库兹涅茨(1955)假设随着经济发展,收入不平等先上升后下降。后续研究表明,这一轨迹并非必然——1980年代以来,多数发达国家的收入不平等再度扩大,与库兹涅茨假说相悖。

数据来源与度量问题

收入分布的实证研究面临若干度量挑战。第一,调查数据与税务数据的差异:家庭收支调查通常低估高收入(因高收入者不配合或低报),而税务数据可能遗漏非税收入和非正规部门的收入,且受到税制变化的影响。Piketty与其合作者利用税务数据的长期序列表明,调查数据系统性地低估了顶层收入份额。第二,收入定义的差异:市场收入、可支配收入(扣除税收和转移支付)、等价调整后的家庭收入等不同定义会导致分布形态显著不同。第三,等价尺度的选择:将家庭收入调整为个人等价收入时,等价尺度的选取(如OECD平方根尺度)会影响不平等水平的绝对值。

经济意义与政策含义

收入分布的形态直接关系到社会福利判断与政策设计。从实证角度看,分布的变化(如中位数停滞而顶层收入飙升)反映了经济增长果实如何在人口中分配,是评估"谁的繁荣"(Whose Prosperity)的核心信息。从规范角度看,社会福利函数的形式——是功利主义(关心平均收入)、罗尔斯主义(关心最穷者)还是介于两者之间——对应着对收入分布不同区间的价值权重。

在政策层面,收入分布的尾部厚度(顶层集中度)直接影响最优所得税的设计:帕累托分布的尾部参数α\alpha直接进入最优边际税率的公式(Saez, 2001)。更一般地,税收转移支付最低工资教育政策——这些干预措施的有效性评估都依赖于对收入分布的经验刻画。没有对收入分布的准确度量,就没有对政策再分配效应的可靠评估。

总之,收入分布是将微观层面的个体收入数据凝聚为宏观不平等图景的桥梁。它既是对经济不平等状态的统计描述,也是福利分析和政策设计的数学基础。选择何种参数模型、如何处理数据缺陷、如何解读分布变迁——这些方法论选择直接影响我们对"谁从经济增长中受益"这一根本问题的回答。