ARTICLE

独立性检验

独立性检验 (Independence Test) 独立性检验判断两/分类变量是否统计独立→假设检验→核心分析列联表→比观测与期望频数→评估关联显著→社科/医学/调研标准工具。 设H_0:X⊥Y(P(X=i,Y=j)=P(X=i)P(Y=j)对所有i,j)→卡方独立性检验=最常用(皮尔逊)。 卡方检验 列联表r×c→期望频数E_ij=n_i·n_·j/n。统

浏览 0 更新 2025-11-08

独立性检验 (Independence Test)

独立性检验判断两/分类变量是否统计独立→假设检验→核心分析列联表→比观测与期望频数→评估关联显著→社科/医学/调研标准工具。

H0H_0:X⊥Y(P(X=i,Y=j)=P(X=i)P(Y=j)P(X=i,Y=j)=P(X=i)P(Y=j)对所有i,j)→卡方独立性检验=最常用(皮尔逊)。

卡方检验

列联表r×c→期望频数Eij=ninj/nE_{ij}=n_{i·}n_{·j}/n统计量χ2=(nijEij)2/Eij\chi^2=\sum\sum(n_{ij}-E_{ij})^2/E_{ij}→观测=期望时=0→偏越大值越大→H0H_0下n足够大时χ2χdf2\chi^2\sim\chi^2_{df}自由度df=(r1)(c1)df=(r-1)(c-1)

决策:设显著性水平α\alpha=0.05→算χ2\chi^2→求p值P(χdf2>P(\chi^2_{df}>观测值)→若p<α\alpha→拒H0H_0→变量显著相关;p≥α\alpha→无足够证据。

条件:n≥50;各格EijE_{ij}≥5(至少80\%→无<1);随机抽样;观测独立。不满足→一型错误率偏离名义。

Fisher精确检验:2×2表或卡方条件不满足时→超几何分布P(a)=(a+ba)(c+dc)(na+c)P(a)=\frac{\binom{a+b}{a}\binom{c+d}{c}}{\binom{n}{a+c}}→精确p值(所有更极概率和)→适n<40/期望大<5/稀有事件。

例与相关概念

例:药A有效60/100,药B效40/100。期望皆=50→χ2=(6050)2/50×4=8.0\chi^2=(60-50)^2/50×4=8.0→df=1→临界χ0.05,12=3.84\chi^2_{0.05,1}=3.84→8.0>3.84→p=0.0047<0.05→拒H0H_0→两药效显著异。

vs拟合优度:单变量vs两变量→观vs理论分布vs观联合vs独立期望。vs相关分析:连续→线性方强vs分类→任何形式关联。统计关联≠因果→可能有因/共同混杂/抽样偏/偶然。

功效+样本:大样→微差可显著→小样→真关联被掩。功效→样本↑/效应量↑/α↑→高。效应量=Phi系数/优势比

高维对数线性模型log(μijk)=λ+λiX+λjY+λkZ+λijXY+...\log(\mu_{ijk})=\lambda+\lambda_i^X+\lambda_j^Y+\lambda_k^Z+\lambda_{ij}^{XY}+...→同检多元独立+交互。现代:蒙特卡洛→贝叶斯后验;R→\texttt{chisq.test()/fisher.test()};Python→\texttt{scipy.stats.chi2\_contingency}。常见误:忽条件检/过释p值/不当合并类/多重比不校。