ARTICLE

卡方随机变量

卡方随机变量 (Chi-Square Random Variable) 卡方随机变量,通常记为 ^2,是概率论与统计学中最重要的连续型随机变量之一。它由 自由度 (Degrees of Freedom) 参数 (或记为 k)唯一确定,记作 X ^2( ) 或 X ^2_k。卡方分布在统计推断——尤其是假设检验、置信区间构造以及方差分析中占据核心地位。其起源可

浏览 0 更新 2025-10-26

卡方随机变量 (Chi-Square Random Variable)

卡方随机变量,通常记为 χ2\chi^2,是概率论统计学中最重要的连续型随机变量之一。它由 自由度 (Degrees of Freedom) 参数 ν\nu(或记为 kk)唯一确定,记作 Xχ2(ν)X \sim \chi^2(\nu)Xχk2X \sim \chi^2_k。卡方分布在统计推断——尤其是假设检验置信区间构造以及方差分析中占据核心地位。其起源可追溯至十九世纪末卡尔·皮尔逊 (Karl Pearson) 对拟合优度检验的研究。

定义与构造

从构造角度而言,若 Z1,Z2,,ZνZ_1, Z_2, \dots, Z_\nuν\nu 个相互独立且服从标准正态分布 N(0,1)N(0, 1) 的随机变量,则卡方随机变量定义为其平方和:

X=i=1νZi2χ2(ν)X = \sum_{i=1}^{\nu} Z_i^2 \sim \chi^2(\nu)

这一构造方式直接揭示了卡方分布与正态分布的源流关系。在线性回归计量经济学中,普通最小二乘法 (OLS) 残差的平方和经过适当标准化后即服从卡方分布,这构成了对模型方差进行统计推断的理论基础。

推导过程需明确两点:第一,每个 Zi2Z_i^2 均服从自由度为 1 的卡方分布 χ2(1)\chi^2(1)。可以证明,若 ZN(0,1)Z \sim N(0, 1),令 Y=Z2Y = Z^2,则 YY 的概率密度函数为:

fY(y)=12πyey/2,y>0f_Y(y) = \frac{1}{\sqrt{2\pi y}} e^{-y/2}, \quad y > 0

这恰是 χ2(1)\chi^2(1) 的密度函数。第二,利用伽马分布的性质可知,独立卡方变量的和仍服从卡方分布,其自由度为各分量自由度之和。由此,i=1νZi2\sum_{i=1}^{\nu} Z_i^2 服从 χ2(ν)\chi^2(\nu)

概率密度函数

自由度为 ν\nu 的卡方随机变量的概率密度函数 (PDF) 为:

f(x;ν)=12ν/2Γ(ν/2)xν/21ex/2,x>0f(x; \nu) = \frac{1}{2^{\nu/2} \,\Gamma(\nu/2)} x^{\nu/2 - 1} e^{-x/2}, \quad x > 0

其中 Γ()\Gamma(\cdot)伽马函数,定义为 Γ(z)=0tz1etdt\Gamma(z) = \int_0^\infty t^{z-1} e^{-t} \, dt。当 ν\nu 为正整数时,Γ(ν/2)\Gamma(\nu/2) 可简化为阶乘形式。密度函数的支撑集严格为正实数 (0,)(0, \infty),这意味着卡方随机变量只能取正值——这是一个关键性质,因为它作为平方和的非负性约束。

从密度函数的形态看:

  • ν=1\nu = 1ν=2\nu = 2 时,密度函数在 x0+x \to 0^+ 处趋于无穷大,呈单调递减形态;
  • ν3\nu \ge 3 时,密度函数在 x=ν2x = \nu - 2 处取得众数,呈右偏单峰形态;
  • 随着自由度 ν\nu 的增大,卡方分布的偏度逐渐减弱,形态趋近于正态分布——这是中心极限定理的直接推论。

数字特征

卡方随机变量的数字特征简洁而优美:

E[X]=ν,Var(X)=2νE[X] = \nu, \quad Var(X) = 2\nu

期望等于自由度,方差是自由度的两倍。这一性质来源于构造定义:E[Zi2]=Var(Zi)+[E(Zi)]2=1+0=1E[Z_i^2] = Var(Z_i) + [E(Z_i)]^2 = 1 + 0 = 1,故 E[X]=E[Zi2]=νE[X] = \sum E[Z_i^2] = \nu;而 Var(Zi2)=E[Zi4][E(Zi2)]2=31=2Var(Z_i^2) = E[Z_i^4] - [E(Z_i^2)]^2 = 3 - 1 = 2(标准正态的四阶矩为 3),又因独立性,Var(X)=Var(Zi2)=2νVar(X) = \sum Var(Z_i^2) = 2\nu

进一步,卡方分布的矩母函数 (MGF) 为:

MX(t)=E[etX]=(12t)ν/2,t<12M_X(t) = E[e^{tX}] = (1 - 2t)^{-\nu/2}, \quad t < \frac{1}{2}

矩母函数在推导卡方分布的可加性以及证明其与指数分布、伽马分布的关系时极为便利。事实上,χ2(ν)\chi^2(\nu) 是伽马分布的特殊情形:若令形状参数 α=ν/2\alpha = \nu/2,尺度参数 β=2\beta = 2,则 XGamma(ν/2,2)X \sim \text{Gamma}(\nu/2, 2),其与伽马分布族的隶属关系使得许多性质可以共享。

可加性

卡方分布具有可加性(或再生性):若 X1χ2(ν1)X_1 \sim \chi^2(\nu_1)X2χ2(ν2)X_2 \sim \chi^2(\nu_2) 相互独立,则其和服从自由度为 ν1+ν2\nu_1 + \nu_2 的卡方分布:

X1+X2χ2(ν1+ν2)X_1 + X_2 \sim \chi^2(\nu_1 + \nu_2)

可加性在统计推断中具有深远的应用价值。例如,在方差分析 (ANOVA) 中,总平方和被分解为组间平方和与组内平方和之和,每个分量在相应零假设下均服从卡方分布,且相互独立,从而总平方和的分布可由可加性直接导出。类似地,在似然比检验中,嵌套模型的对数似然比统计量渐近服从卡方分布,其自由度等于两模型参数个数之差,这一结论也是可加性在渐近框架下的体现。

与其他分布的关系

卡方分布与多个核心分布存在密切联系,构成了统计推断中的分布族网络:

  1. 标准正态分布: χ2(1)=Z2\chi^2(1) = Z^2,即单个标准正态变量的平方服从卡方分布。
  2. 指数分布: χ2(2)\chi^2(2) 等价于参数为 λ=1/2\lambda = 1/2 的指数分布,即其密度函数为 f(x)=12ex/2,x>0f(x) = \frac{1}{2}e^{-x/2}, x > 0
  3. 伽马分布: 如上所述,χ2(ν)Gamma(ν/2,2)\chi^2(\nu) \equiv \text{Gamma}(\nu/2, 2)
  4. t分布:ZN(0,1)Z \sim N(0, 1)Xχ2(ν)X \sim \chi^2(\nu) 独立,则 T=ZX/νt(ν)T = \frac{Z}{\sqrt{X / \nu}} \sim t(\nu)。这一定义是学生t分布在单样本和双样本均值检验中的构造基础。
  5. F分布:X1χ2(ν1)X_1 \sim \chi^2(\nu_1)X2χ2(ν2)X_2 \sim \chi^2(\nu_2) 独立,则 F=X1/ν1X2/ν2F(ν1,ν2)F = \frac{X_1 / \nu_1}{X_2 / \nu_2} \sim F(\nu_1, \nu_2)。F分布是方差分析、回归模型整体显著性检验(F检验)以及邹检验 (Chow Test) 的核心分布。

这些关系揭示了一个清晰的理论层级:标准正态处于底层,卡方由其平方和构造,t分布和F分布则由正态与卡方的比值构造。理解这一层级对于掌握经典统计推断的逻辑至关重要。

在统计推断中的应用

方差估计与置信区间

X1,,XnX_1, \dots, X_n 是从均值为 μ\mu、方差为 σ2\sigma^2 的正态总体中抽取的随机样本。样本方差 s2=1n1i=1n(XiXˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2 经标准化后服从卡方分布:

(n1)s2σ2χ2(n1)\frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)

这一结果——有时被称为 Cochran 定理的推论——构成了正态总体方差 σ2\sigma^2置信区间估计与假设检验的枢轴量。由此可构造 σ2\sigma^2100(1α)%100(1-\alpha)\% 置信区间:

((n1)s2χα/2,n12,(n1)s2χ1α/2,n12)\left( \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}} \right)

其中 χα,ν2\chi^2_{\alpha, \nu} 表示 χ2(ν)\chi^2(\nu) 的上侧 α\alpha 分位数。

拟合优度检验

皮尔逊卡方检验是分析分类数据最经典的方法。检验统计量:

χ2=i=1k(OiEi)2Ei\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}

在零假设下近似服从 χ2(k1m)\chi^2(k-1-m) 分布,其中 OiO_i 为观测频数,EiE_i 为期望频数,mm 为从数据中估计的参数个数。该统计量的直觉在于:若零假设为真,观测值与期望值之间的差异应仅反映抽样变异性,标准化后的平方和不应过大。

独立性检验

在列联表分析中,卡方独立性检验用于判断两个分类变量是否关联。对于一个 r×cr \times c 的列联表,检验统计量在独立性零假设下近似服从 χ2((r1)(c1))\chi^2((r-1)(c-1)) 分布。该检验广泛应用于社会科学、医学和经济学中的调查数据分析。

非中心卡方分布

当构造卡方变量的正态分量均值不全为零时,得到的分布称为非中心卡方分布 (Noncentral Chi-Square Distribution)。具体地,若 ZiN(μi,1)Z_i \sim N(\mu_i, 1) 且相互独立,则 Zi2χ2(ν,λ)\sum Z_i^2 \sim \chi^2(\nu, \lambda),其中非中心参数 λ=μi2\lambda = \sum \mu_i^2。非中心卡方分布在计算检验的功效 (Power) 时不可或缺:当备择假设为真实时,许多检验统计量服从非中心卡方分布,其非中心参数刻画了偏离零假设的程度。在样本量计算功效分析中,非中心卡方分布的分位数与累积分布函数的计算是标准工具。