ARTICLE

变量选择

变量选择 (Variable Selection) 变量选择→统计建模/机器学习关键步→从候选变量集中→选出最能解释/预测因变量y的子集→降维+可解释性+避过拟合。现代数据p>n→变量选择从"可选"变"必选"。为何要做变量选择 ①奥卡姆剃刀—简模型易解、易复、易沟通。②降方差—含无关变量→模型自由度↓→估计量方差↑→预测均方误差损。③避过拟合—p大→模型记

浏览 5 更新 2026-06-28

变量选择 (Variable Selection)

变量选择→统计建模/机器学习关键步→从候选变量集中→选出最能解释/预测因变量y的子集→降维+可解释性+避过拟合。现代数据p>n→变量选择从"可选"变"必选"。

为何要做变量选择

①奥卡姆剃刀—简模型易解、易复、易沟通。②降方差—含无关变量→模型自由度↓→估计量方差↑→预测均方误差损。③避过拟合—p大→模型记噪声→泛化差。④计算效率—少变量→估快、推理快。

经典子集选择法

最优子集法：穷举2^p种组合→残差平方和最小者→p>20不可行→计算爆炸。

向前选择（Forward Selection）：从空模型始→每步加F统计量最大/最显著变量→至无显著→贪心快→可能漏组合效应。

向后消元（Backward Elimination）：全模型始→每步删t统计量最不显著变量→需n>p。

逐步回归（Stepwise）：前+后混→每加后检可否删→双向搜索→灵活→过拟合风险高→p值失真。

信息准则法

信息准则→对极大似然值加参数惩罚→使选模平衡拟合与简。

AIC= $2k-2\ln(\hat L)$ →k参数→ $\hat$ L最大似然→惩轻→倾选复模（预测导向）。

BIC= $k\ln n-2\ln(\hat L)$ →n>e^2时BIC惩> AIC→倾选简模（一致性→真模在候则渐近选中）。

调整R²： $1-(1-R^2)(n-1)/(n-k-1)$ →加变量提R²但不一定提调整R²。

收缩与正则化

Ridge回归（L2正则化）： $\min\|y-X\beta\|_2^2+\lambda\|\beta\|_2^2$ →压系数→但不设0→不真正选变量→适多变量共线。

Lasso回归（L1正则化）： $\min\|y-X\beta\|_2^2+\lambda\|\beta\|_1$ →L1惩→系数连续缩→一些精确缩至0→自动变量选择。称"稀疏解"→小\lambda选入多→大\lambda大部0→交叉验证选 $\lambda$ 。

其他现代方法

SCAD（平滑剪切绝对偏差）→渐近无偏+连续+稀疏→满足Oracle性质（选对变量+估计同已知真模渐近等价）。自适应Lasso→各变量异 $\lambda_j$ 惩→先一致估→再以倒数加权→\# Lasso系→增强稀疏。

主成分回归PCR→降维后回归→不选原变量→选主成分→适共线强场景。偏最小二乘PLS→兼考虑X对Y→预测导向。

评价与口诀

选变量法择依：主观（理论驱动→先验知识定核心→再加检）or数据（自动→交叉验证定 $\lambda$ ）。核心口诀：信息准则定规模（AIC/BIC选大小）、正则化法定稀疏（Lasso/Elastic Net）、理论引导定方向（模型设定先于算法）。无免费午餐：无一法万优→需结领域知识+样本量+目标（解释vs预测）→择最适合。

关于知经 KNOWECON

知经 KNOWECON 是深圳市卢可教育科技有限公司旗下的教育科技品牌，长期面向北京大学、清华大学、中国人民大学等顶尖院校，提供经济学、金融学、统计学、管理学等相关科目的专业课考研辅导与复试辅导。每年都有数十名同学在我们的帮助下完成系统备考，并成功进入理想院校。

知经主讲人喵喵学长毕业于北京大学汇丰商学院经济学专业和新加坡国立大学金融工程专业，获经济学硕士与金融工程硕士学位。他同时也是软件工程师和教育科技创业者，长期探索用讲义、题库、记忆系统、智能答疑与学习数据工具改善专业课学习体验。

我们相信，好的考研辅导不只是押题和陪跑，更是把复杂知识讲清楚、把复习路径设计清楚，并用技术让学习过程更可追踪、更可反馈、更可坚持。