ARTICLE

模型选择准则

模型选择准则模型选择准则是统计学与机器学习中用于在候选模型集合中选出"最优"模型的一系列定量规则与方法。其核心思想是在拟合优度（模型对数据的解释能力）与模型复杂度（参数数量）之间寻找平衡，以避免过拟合（选择过于复杂、泛化能力差的模型）和欠拟合（选择过于简单、无法捕捉数据结构的模型）。奥卡姆剃刀原则——如无必要勿增实体——是模型选择准则的哲学基础。常用的模型

浏览 4 更新 2025-11-28

模型选择准则

模型选择准则是统计学与机器学习中用于在候选模型集合中选出"最优"模型的一系列定量规则与方法。其核心思想是在拟合优度（模型对数据的解释能力）与模型复杂度（参数数量）之间寻找平衡，以避免过拟合（选择过于复杂、泛化能力差的模型）和欠拟合（选择过于简单、无法捕捉数据结构的模型）。奥卡姆剃刀原则——如无必要勿增实体——是模型选择准则的哲学基础。常用的模型选择准则包括AIC、BIC、AICc、交叉验证、调整R²（Adjusted $R^2$ ）等。

信息准则类

AIC（赤池信息准则）由赤池弘次于 1973 年提出，基于信息论中的Kullback-Leibler散度概念。AIC 定义为 $\text{AIC} = -2\ln(\hat{L}) + 2k$ ，其中 $\hat{L}$ 为模型的最大似然函数值， $k$ 为待估参数个数。第一项 $-2\ln(\hat{L})$ 衡量模型拟合优度（越小越好），第二项 $2k$ 作为惩罚项控制复杂度。AIC 的核心目标是找到使期望 KL 散度最小的模型，具有渐近有效性（asymptotic efficiency）——当真实模型不在候选集中时能选择预测误差最小的模型。AIC 更适用于预测导向的建模任务。

BIC（贝叶斯信息准则）由 Gideon Schwarz 于 1978 年提出，根植于贝叶斯统计框架。BIC 定义为 $\text{BIC} = -2\ln(\hat{L}) + k\ln(n)$ ，其中 $n$ 为样本量。与 AIC 相比，BIC 的惩罚项 $k\ln(n)$ 随样本量增大而加重，故比 AIC 更严厉地惩罚复杂度。BIC 具有一致性（consistency）——若真实模型在候选集中，当样本量趋近无穷时 BIC 以概率 1 选中真实模型。BIC 更适用于解释/因果推断导向的研究，尤其在结构方程模型和计量经济学中广泛应用。

AICc（修正赤池信息准则）由 Sugiura (1978) 和 Hurvich \& Tsai (1989) 提出，在 AIC 基础上增加小样本修正项： $\text{AICc} = \text{AIC} + \frac{2k(k+1)}{n-k-1}$ 。当 $n/k < 40$ 时，原始 AIC 倾向于过选复杂模型，AICc 通过额外惩罚项纠正此偏差。当 $n \to \infty$ 时，修正项趋近于零，AICc 自动退化为 AIC。Burnham \& Anderson 强烈建议在实际应用中优先使用 AICc。

其他常见准则

调整 $R^2$ （Adjusted $R^2$ ）是经典线性回归中R²的修正版本。定义为 $\bar{R}^2 = 1 - \frac{SSE/(n-k)}{SST/(n-1)}$ ，其中 SSE 为残差平方和，SST 为总平方和。调整 $R^2$ 在 $R^2$ 基础上引入对参数个数的惩罚，避免了普通 $R^2$ 随变量增多必然上升的缺陷，但仅适用于线性回归框架。

交叉验证（Cross-Validation）是一类基于样本重用的模型选择方法，尤以K折交叉验证（K-fold CV）最为常用。其思路是将数据分为 K 个子集，轮流以 K-1 个子集训练、1 个子集验证，重复 K 次后取平均预测误差作为模型评估指标。交叉验证不依赖于似然函数假设，适用于任意模型和损失函数，但计算成本较高。留一交叉验证（LOOCV）是 K=n 时的特例，近似无偏但方差较大。

最小描述长度准则（MDL）源于信息论，认为最佳模型是使数据描述长度最小的模型，即数据压缩视角下的模型选择，与 BIC 有深层理论联系。

应用指南与注意事项

选择策略：① AIC/AICc 侧重预测精度，适用于预测任务；② BIC 侧重识别真实结构，适用于因果推断；③ 交叉验证适用于非参数模型和复杂机器学习模型；④ 在实际研究中常同时报告 AIC 和 BIC，以考察所选模型在不同准则下的一致性。注意事项：① 模型选择准则只能比较在同一数据集上拟合的模型，不能跨数据集比较；② AIC/BIC 的绝对数值无意义，仅差值相对比较有效；③ 模型选择本身引入的不确定性不应被忽视——建议结合模型平均（Model Averaging）和多模型推断；④ 当所有候选模型均不佳时，准则仍会选出"最不差"的模型，故模型选择不应替代残差分析和模型诊断。

理论展望

现代高维统计中，当参数个数 $p$ 远大于样本量 $n$ 时，传统 AIC/BIC 不再适用。LASSO（L1 正则化）等正则化方法通过连续收缩实现变量选择与参数估计同步进行，为高维模型选择提供了新范式。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。