# 线性模型 (Linear Model)
线性模型 (Linear Model) 是{{{统计学}}}和{{{计量经济学}}}中最基本、最广泛使用的一类模型。它假设{{{因变量}}} (Dependent Variable) 与一个或多个{{{自变量}}} (Independent Variables) 之间的关系可以用一个线性方程来近似。线性模型的简洁性和良好的理论性质使其成为理解更复杂模型的基础。
线性模型的核心思想是,因变量的期望值可以表示为自变量的线性组合。
## 模型的数学表述
一个一般的线性模型可以用矩阵形式简洁地表示为:
$$ Y = X\beta + \varepsilon $$
其中,各个组成部分代表:
* $Y$: 一个 $n \times 1$ 的{{{向量}}},代表因变量的 $n$ 个观测值。它也被称为响应变量 (Response Variable)、被解释变量 (Explained Variable) 或结果变量 (Outcome Variable)。 $$ Y = \begin{pmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{pmatrix} $$
* $X$: 一个 $n \times (p+1)$ 的矩阵,被称为设计矩阵 (Design Matrix)。它包含了 $p$ 个自变量的 $n$ 个观测值,以及一列通常全为1的列向量,用于对应模型的截距项。自变量也被称为解释变量 (Explanatory Variables)、预测变量 (Predictors) 或协变量 (Covariates)。 $$ X = \begin{pmatrix} 1 & X_{11} & X_{12} & \cdots & X_{1p} \\ 1 & X_{21} & X_{22} & \cdots & X_{2p} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & X_{n1} & X_{n2} & \cdots & X_{np} \end{pmatrix} $$
* $\beta$: 一个 $(p+1) \times 1$ 的参数向量,代表模型的{{{系数}}} (Coefficients) 或{{{参数}}} (Parameters)。这些是模型需要从数据中估计的未知量。$\beta_0$ 是截距项 (Intercept),而 $\beta_1, \beta_2, \ldots, \beta_p$ 分别是各个自变量的系数。 $$ \beta = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{pmatrix} $$
* $\varepsilon$: 一个 $n \times 1$ 的向量,代表误差项 (Error Term) 或扰动项 (Disturbance)。它捕捉了所有未被模型中自变量解释的、影响 $Y$ 的因素,包括测量误差、遗漏变量和纯粹的随机性。 $$ \varepsilon = \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix} $$
对于单个观测值 $i$ (for $i=1, 2, \ldots, n$),该模型可以写为:
$$ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \cdots + \beta_p X_{ip} + \varepsilon_i $$
这种形式被称为{{{多元线性回归}}} (Multiple Linear Regression)。当只有一个自变量时 ($p=1$),模型简化为{{{简单线性回归}}} (Simple Linear Regression):
$$ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i $$
重要概念:参数的线性 "线性模型"中的"线性"指的是模型关于参数 $\beta$ 是线性的,而不一定要求关于自变量 $X$ 是线性的。例如,模型 $Y_i = \beta_0 + \beta_1 X_i^2 + \varepsilon_i$ 仍然是一个线性模型,因为因变量是参数 $\beta_0$ 和 $\beta_1$ 的线性函数。
## 经典线性模型的假定 (Gauss-Markov Assumptions)
为了使通过{{{普通最小二乘法}}} (Ordinary Least Squares, OLS) 得到的估计量具有良好的统计性质(如无偏性、有效性),经典线性模型 (Classical Linear Model, CLM) 依赖于一组核心假定,即高斯-马尔可夫假定:
1. 参数线性 (Linearity in Parameters): 模型在参数上是线性的,如上所述。
2. 随机抽样 (Random Sampling): 数据集 $\{(X_{i1}, \ldots, X_{ip}, Y_i)\}_{i=1}^n$ 是从总体中随机抽样得到的。
3. 不存在完全共线性 (No Perfect Multicollinearity): 在样本的自变量中,没有任何一个变量是其他自变量的精确线性组合。如果存在{{{完全共线性}}},则无法唯一地估计出每一个自变量对因变量的独立影响。
4. 零条件均值 (Zero Conditional Mean): 给定任何自变量的值,误差项的期望值为零。即 $E(\varepsilon_i | X_{i1}, \ldots, X_{ip}) = 0$。这是最关键的假定,它意味着误差项中包含的未观测因素与模型中的自变量不相关。违反此假定(例如因为存在{{{遗漏变量偏误}}})会导致有偏的估计。
5. 同方差性 (Homoscedasticity): 误差项的方差对于所有自变量的观测值都是常数。即 $Var(\varepsilon_i | X_{i1}, \ldots, X_{ip}) = \sigma^2$。如果这个假定被违反,即方差随 $X$ 的变化而变化,则称模型存在{{{异方差性}}} (Heteroscedasticity)。
在上述五个假定下,{{{高斯-马尔可夫定理}}} (Gauss-Markov Theorem) 证明,OLS估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator, BLUE)。
* 最佳 (Best): 在所有线性和无偏的估计量中,OLS估计量具有最小的方差。 * 线性 (Linear): OLS估计量是因变量 $Y$ 的线性函数。 * 无偏 (Unbiased): OLS估计量的期望值等于总体的真实参数值,即 $E(\hat{\beta}) = \beta$。
有时还会增加一个假定: 6. 正态性假定 (Normality Assumption): 误差项 $\varepsilon_i$ 独立于自变量 $X$,并且服从均值为0、方差为 $\sigma^2$ 的{{{正态分布}}}。这个假定对于證明 OLS 估计量是 BLUE 并非必要,但它使得在小样本下进行精确的{{{假设检验}}}(如{{{t检验}}}和{{{F检验}}})成为可能。对于大样本,根据{{{中心极限定理}}},即使误差项不服从正态分布,OLS估计量也近似服从正态分布。
## 参数估计与模型评估
### 估计方法:普通最小二乘法 (OLS) 线性模型最常用的参数估计方法是{{{普通最小二乘法}}} (OLS)。其目标是找到参数估计值 $\hat{\beta}$,使得残差平方和 (Sum of Squared Residuals, SSR) 最小化。残差 $e_i$ 是观测值 $Y_i$ 与模型拟合值 $\hat{Y_i}$ 之间的差异:
$$ e_i = Y_i - \hat{Y_i} = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_{i1} + \cdots + \hat{\beta}_p X_{ip}) $$
OLS的最小化问题是:
$$ \min_{\hat{\beta}_0, \hat{\beta}_1, \ldots, \hat{\beta}_p} \sum_{i=1}^n e_i^2 = \min_{\hat{\beta}} \sum_{i=1}^n (Y_i - X_i\hat{\beta})^2 $$
通过求解这个最优化问题,可以得到OLS估计量的矩阵表达式:
$$ \hat{\beta} = (X'X)^{-1}X'Y $$
### 模型评估 评估一个线性模型通常涉及以下几个方面:
* 拟合优度 ($R^2$): {{{决定系数}}} (Coefficient of Determination),即 $R^2$,衡量了模型中的自变量能够解释因变量总变异的百分比。其值介于0和1之间,越高表示模型的解释能力越强。 * 系数的解释与显著性: * $\hat{\beta}_j$ 的值表示在其他自变量保持不变的情况下,$X_j$ 每增加一个单位,$Y$ 预计变化的量。 * 通过对每个系数进行t检验,可以判断某个自变量对因变量的影响是否在统计上显著。 * 模型的整体显著性: * 通过F检验,可以检验模型中所有自变量作为一个整体是否对因变量具有显著的解释能力。其原假设是所有斜率系数都为零 ($H_0: \beta_1 = \beta_2 = \ldots = \beta_p = 0$)。
## 应用与扩展
线性模型是许多实证研究的起点。它被广泛应用于经济学中预测{{{GDP}}}增长、分析工资决定因素,金融学中构建{{{资本资产定价模型}}} (CAPM),以及社会科学、医学和工程学的各个领域。
当经典线性模型的某些假定不成立时,需要使用更高级的模型,这些模型通常是线性模型的扩展,例如:
* {{{广义线性模型}}} (Generalized Linear Models, GLM): 用于因变量不是连续变量的情况,如二元选择({{{逻辑回归}}})或计数数据({{{泊松回归}}})。 * {{{时间序列分析}}} (Time Series Analysis): 用于处理具有时间依赖性的数据,此时误差项可能存在{{{自相关}}}。 * {{{面板数据模型}}} (Panel Data Models): 用于处理同时包含截面维度和时间维度的数据。