ARTICLE
卡方分布
卡方分布 (Chi-squared Distribution) 卡方分布(Chi-squared Distribution),记作 ^2 分布,是概率论和数理统计中一种极为重要的连续概率分布。它是通过对独立标准正态分布 随机变量的平方和进行定义而得到的,这使得它在推断统计学中扮演着核心角色,尤其是在假设检验和置信区间的构建中。 卡方分布只有一个参数,即 自由
卡方分布 (Chi-squared Distribution)
卡方分布(Chi-squared Distribution),记作 分布,是概率论和数理统计中一种极为重要的连续概率分布。它是通过对独立标准正态分布 随机变量的平方和进行定义而得到的,这使得它在推断统计学中扮演着核心角色,尤其是在假设检验和置信区间的构建中。
卡方分布只有一个参数,即 自由度 (degrees of freedom),通常记为 。自由度决定了分布的具体形态。
定义与构建
卡方分布的定义是其在统计应用中如此广泛的关键。
假设 是 个相互独立的随机变量,并且每个变量都服从标准正态分布,即 。
那么,这 个随机变量的平方和所构成的新随机变量 :
就服从自由度为 的卡方分布。我们记作:
这里的 自由度 ,直观上理解,就是构成这个分布的独立标准正态变量的个数。这个数值是理解和应用卡方分布的关键。由于 是平方和,所以卡方分布的取值永远是 非负的 ()。
主要性质
卡方分布的性质由其自由度 唯一确定。
1. 概率密度函数 (PDF)
自由度为 的卡方分布的概率密度函数为:
其中:
- 是随机变量的取值。
- 是自由度。
- 是伽马函数 (Gamma function),可以看作是阶乘向实数和复数的推广。
当 时,。
2. 分布形态
卡方分布的形状随着自由度 的变化而变化:
- 当 或 时,分布的形状很特殊。 时,PDF在 处趋近于无穷; 时,它是一个简单的指数分布。
- 当 时,分布曲线从0开始,达到一个峰值,然后向右侧延伸,呈现出明显的 右偏态 (positively skewed)。
- 随着自由度 的增加,分布的偏度减小,形态逐渐变得对称,越来越接近一个正态分布。根据中心极限定理的推广,当 足够大时, 分布可以用均值为 、方差为 的正态分布 来近似。
3. 数学期望与方差
对于一个服从 分布的随机变量 :
- 数学期望 (Mean):
这个性质非常直观。因为每个 ,所以 。因此, 个独立 的和的期望就是 。
4. 可加性 (Additivity Property)
这是卡方分布的一个非常重要的特性。如果 和 是两个独立的随机变量,且分别服从自由度为 和 的卡方分布:
那么它们的和 也服从卡方分布,其自由度为两者自由度之和:
这一性质是许多统计检验方法能够成立的理论基础。
与其他统计分布的关系
卡方分布是统计学中四大分布(正态分布、t分布、分布、F分布)之一,并与其他分布有着密切的联系。
- 正态分布 (Normal Distribution): 卡方分布由标准正态分布直接派生而来。
- 伽马分布 (Gamma Distribution): 卡方分布是伽马分布的一个特例。 等价于形状参数 、尺度参数 的伽马分布。
- t-分布 (Student's t-distribution): t-分布可以由一个标准正态分布的随机变量和一个独立的、经过自由度调整的卡方分布随机变量的比值来定义。
- F-分布 (F-distribution): F-分布可以由两个独立的、各自除以其自由度的卡方分布随机变量的比值来定义。这使得F分布在方差分析 (ANOVA) 中至关重要。
在统计推断中的应用
卡方分布之所以重要,主要在于它为多种假设检验提供了检验统计量的理论分布。这些检验统称为 卡方检验 (Chi-squared Test)。
1. 拟合优度检验 (Goodness-of-Fit Test)
目的:检验一组观测频数是否与某个理论或期望的频数分布相符。
场景:假设你掷一个骰子600次,你想检验这个骰子是否是公平的。如果是公平的,每个点数(1到6)出现的期望次数都是100次。拟合优度检验可以帮助你判断观测到的次数(例如,1点出现95次,2点出现108次)与期望次数之间的差异是否在随机波动的合理范围内。
检验统计量:
其中:
- 是类别 的 观测频数 (Observed frequency)。
- 是类别 的 期望频数 (Expected frequency)。
- 是分类的总数。
这个统计量近似服从自由度为 的卡方分布(如果期望频数是基于样本数据估算的参数,则自由度会进一步减少)。计算出的 值越大,表明观测与期望的偏差越大,拒绝"数据符合理论分布"这一原假设的理由就越充分。
2. 独立性检验 (Test for Independence)
目的:检验两个分类变量之间是否存在关联。
场景:研究人员想知道吸烟习惯(吸烟/不吸烟)与是否患有某种肺部疾病(是/否)之间是否存在统计学上的关联。他们可以收集一组样本数据,并将其整理成一个 列联表 (Contingency Table)。
检验统计量:公式与拟合优度检验相同,但期望频数 的计算方式不同。在独立性假设下,单元格 的期望频数由行总计和列总计计算得出:
这个统计量近似服从自由度为 的卡方分布,其中 是行数, 是列数。同样,大的 值表明两个变量可能不独立。
3. 单个总体方差的检验与置信区间
目的:对来自正态总体的单个样本的方差 进行假设检验或构建置信区间。
原理:如果样本来自一个正态总体,那么统计量
服从自由度为 的卡方分布。其中:
这个关系不仅可以用来检验 ,也可以反解出来,为总体方差 构建一个置信区间。
4. 卡方分布表与临界值
在实际应用中,卡方检验的结果需要通过与临界值比较来进行判断。统计学家编制了卡方分布表,列出不同自由度 和显著性水平 下的临界值 。临界值满足 。若计算出的检验统计量大于临界值,则在显著性水平 下拒绝原假设。如今,统计软件和计算工具已能直接给出精确的 p值,但理解卡方分布表的原理对于掌握统计推断的思维仍然十分重要。