ARTICLE
i.i.d.
i.i.d.(独立同分布,Independent and Identically Distributed) 在概率论和统计学中,i.i.d. 是 Independent and Identically Distributed 的缩写,表示一组随机变量相互独立且服从相同的概率分布。这一假设是经典统计学和计量经济学中大多数推断方法的基石。 定义 设 X_1, X
浏览 0
更新 2026-05-25
i.i.d.(独立同分布,Independent and Identically Distributed)
在概率论和统计学中,i.i.d. 是 Independent and Identically Distributed 的缩写,表示一组随机变量相互独立且服从相同的概率分布。这一假设是经典统计学和计量经济学中大多数推断方法的基石。
定义
设 为随机变量,若满足:
- 独立性 (Independence):对任意 , 与 独立,即一个变量的取值不影响其他变量的条件分布。形式化地,联合概率密度可分解为边际密度的乘积:。
- 同分布 (Identically Distributed):所有 具有相同的累积分布函数 ,即对任意 ,。这意味着它们来自相同的总体。
则称 为 i.i.d. 样本。
为什么 i.i.d. 如此重要
绝大多数统计方法的理论基础依赖于 i.i.d. 假设:
- 大数定律:在 i.i.d. 条件下,样本均值依概率收敛于总体均值:。这保证了点估计的一致性。
- 中心极限定理:在 i.i.d. 且方差有限条件下,标准化样本均值的分布收敛于标准正态分布。这是构建置信区间和假设检验的依据。
- 极大似然估计:在 i.i.d. 假设下,对数似然函数可写为个体贡献之和 ,极大似然估计量具有一致性和渐近正态性等优良性质。
i.i.d. 假设的违反与应对
实际数据常违反 i.i.d. 假设:
- 时间序列:经济数据按时间排序,当期值通常与前期值相关(自相关),违背独立性。需要时间序列分析方法(如 ARIMA、GARCH)。
- 面板数据:同一主体在不同时间点的观测彼此相关(聚类相关性),需使用聚类标准误。
- 空间数据:相邻观测值因溢出效应而相关,需用空间计量经济学方法。
- 异质性:总体内不同子群体可能具有不同的分布,违背同分布假设。混合模型和分层模型可处理此类问题。
i.i.d. 假设是统计学从理论走向应用的第一道"理想化假设"——它极大简化了理论推导,但在实证研究中始终需要对这一假设的有效性保持警觉。