ARTICLE
对数线性模型
对数线性模型 (Log-Linear Model) 对数线性模型是一类用于分析分类变量之间关联结构的广义线性模型。其核心思想是:将列联表中单元格的期望频数取对数后,建模为各变量主效应与交互效应的线性组合。与仅检验两变量独立的卡方检验相比,对数线性模型可同时处理三个或更多分类变量的复杂交互结构,且能显式区分不同层次的关联模式。 模型形式 对于一个 I J 二维
对数线性模型 (Log-Linear Model)
对数线性模型是一类用于分析分类变量之间关联结构的广义线性模型。其核心思想是:将列联表中单元格的期望频数取对数后,建模为各变量主效应与交互效应的线性组合。与仅检验两变量独立的卡方检验相比,对数线性模型可同时处理三个或更多分类变量的复杂交互结构,且能显式区分不同层次的关联模式。
模型形式
对于一个 二维列联表,记单元格 的观测频数为 ,期望频数为 。饱和对数线性模型为:
其中 为总均值参数, 和 分别捕捉行变量 和列变量 的边际效应,交互项 刻画 与 之间的关联。该设定默认 服从泊松分布(或等价地,在给定总样本量的条件下服从多项分布)。
为模型可识别,需施加中心化约束(如 , 对每个 )或参照编码约束(如设 )。
模型层级与独立性
通过约束交互项可得到不同层次的模型:
- 独立模型:约束所有 ,则 ,等价于 ,即 与 统计独立。
- 联合独立模型:对于三维表,约束所有二阶及三阶交互为零,仅保留主效应。
- 条件独立模型:约束部分交互项,如 但 和 ,表示给定 后 与 独立。
- 齐次关联模型:假设交互效应具有特定结构(如行列效应可分离),减少参数数量。
模型选择通常通过嵌套模型的似然比检验(偏差分析)进行:计算偏差统计量 ,其在原假设下近似服从卡方分布,自由度为约束条件数目。
参数估计
对数线性模型的参数估计通常采用极大似然估计。由于泊松分布属于指数族,似然方程可通过Newton-Raphson或迭代比例拟合 (Iterative Proportional Fitting, IPF) 求解。IPF 算法利用充分统计量的边际约束,交替调整单元格估计值以匹配每步的边际合计,广泛适用于层次对数线性模型。当期望频数为零或极小(稀疏表问题)时,MLE 可能不稳定,此时可采用贝叶斯方法或添加小常数平滑。
与泊松回归的联系
对数线性模型本质上是泊松回归在分类数据场景中的特例。将 对行指示变量和列指示变量及其交互项回归,所得模型在形式上与对数线性模型完全等价。这使得任何可估计泊松回归的软件(如 R 中 \texttt{glm()} 函数)均可用于拟合对数线性模型,并可自然引入连续协变量以超越经典分类数据框架。
应用场景
对数线性模型在社会科学和生物统计学中应用广泛:
- 社会流动表分析:研究父子职业类别的关联,通过拟合不同层次的交互模型量化代际流动程度。
- 捕获-重捕获研究:将多次捕获记录视为多变量分类表,显式建模列表间交互以估计总体规模。
- 独立性检验的推广:对于三维及以上列联表,对数线性模型可以区分直接关联与间接关联,避免辛普森悖论。
- 项目反应理论:Rasch 模型可表述为对数线性模型的特例。
与对数线性回归的区别
对数线性模型(Log-Linear Model)与对数线性回归(Log-Linear Regression,亦称对数-水平模型)是两个不同的概念。前者处理分类因变量(列联表频数),核心是 (对数期望的线性分解);后者处理连续因变量的对数变换 ,旨在估计自变量对因变量百分比变化的影响(半弹性)。在中文语境中两者常被混为一谈,但模型结构、估计方法和适用数据类型的差异显著。