ARTICLE

parameter

参数(Parameter)是统计学、数学和计算机科学中用于描述系统或分布特征的量,在模型中被视为固定但通常未知的常数,需要通过数据估计或由理论假定确定。参数刻画了总体分布的基本特征——例如正态分布的均值 μ 和方差 σ² 完全决定了分布的形状、位置和离散程度。参数与统计量形成一对核心对立概念:参数是总体的特征值,是固定不变的;统计量是样本的函数,随样本不同而

浏览 4 更新 2026-05-26

参数(Parameter)是统计学、数学和计算机科学中用于描述系统或分布特征的量,在模型中被视为固定但通常未知的常数,需要通过数据估计或由理论假定确定。参数刻画了总体分布的基本特征——例如正态分布的均值 μ 和方差 σ² 完全决定了分布的形状、位置和离散程度。参数与统计量形成一对核心对立概念:参数是总体的特征值,是固定不变的;统计量是样本的函数,随样本不同而变动。由于总体参数通常不可直接观测,统计学的核心任务之一就是基于样本统计量对总体参数进行推断,这一过程构成了参数估计和假设检验的基础。参数的概念广泛应用于微分方程、最优化问题、机器学习模型和物理系统中,作为控制变量或自由度发挥作用。参数空间的维数直接影响模型复杂度和过拟合风险,是模型选择中偏差-方差权衡的关键决定因素。

参数的点估计

点估计是利用样本数据计算参数的一个具体数值,作为总体参数真值的近似。矩估计法由皮尔逊(Pearson, 1894)提出,其思想是令样本矩等于总体矩从而解出参数估计量。例如对于正态分布,令样本均值等于 μ、样本二阶中心矩等于 σ²,即可得到矩估计。矩估计计算简便但通常不是最有效的。最大似然估计(MLE)由费希尔(Fisher, 1922)系统发展,其思想是寻找使观测数据出现概率最大的参数值。MLE 具有一致性、渐近正态性和渐近有效性等优良性质。贝叶斯估计将参数视为随机变量,通过先验分布与似然函数结合得到后验分布,后验均值或众数作为点估计,可自然纳入先验信息,在小样本问题中尤其有优势。最小二乘估计在线性回归中是高斯-马尔可夫定理的核心:在经典假设下,OLS 是所有线性无偏估计量中方差最小的。点估计的评价标准包括无偏性、有效性、一致性和充分性。

参数的区间估计与置信域

区间估计在点估计基础上给出参数可能取值的范围,并附以置信水平表示该范围覆盖参数真值的概率。置信区间由奈曼(Neyman, 1937)正式提出,其构造通常借助枢轴量方法。例如正态总体均值 μ 在方差已知时 Xˉμσ/nN(0,1) \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) ,据此构造置信区间。大样本下中心极限定理保证近似正态性。Bootstrap方法(Efron, 1979)通过有放回重抽样构造非参数置信区间,避免复杂理论推导。对于多个参数,需要构造置信域同时包含所有参数的真值。置信区间与假设检验存在对偶关系:参数值落在区间内等价于无法拒绝该参数值的零假设。区间宽度受样本量、置信水平和数据变异性的共同影响——样本量越大、置信水平越低、变异性越小,区间越窄,精度越高。

参数假设检验

参数假设检验是利用样本数据对参数陈述进行统计决策的方法。零假设通常表示无效应,备择假设表示研究者希望支持的主张。第一类错误概率记作 α(通常取 0.05 或 0.01),第二类错误概率记作 β。检验功效(1−β)受样本量、效应大小和显著性水平的共同影响。常见参数检验包括:t 检验用于检验均值之差;F 检验用于方差分析;卡方检验用于独立性或拟合优度检验。似然比检验沃尔德检验拉格朗日乘数检验是三大经典大样本检验框架,三者渐近等价。参数假设检验广泛应用于医学临床试验、经济学因果推断和社会科学实证研究等领域。

机器学习中的参数

在机器学习中,参数是模型从训练数据中学习到的内部权重和偏置项。线性模型的参数通过最小化损失函数获得。神经网络的参数包括连接权重和偏置向量,其数量可达数百万甚至数十亿,参数规模是模型容量的直接体现,反向传播与梯度下降法提供高效优化手段。正则化技术通过对参数施加惩罚控制模型复杂度:L1 正则化(Lasso)产生稀疏解实现特征选择;L2 正则化(Ridge)将参数向零收缩。超参数控制模型结构和学习过程的设置(如学习率、正则化强度),不直接由数据学习,需通过交叉验证调整。参数共享是卷积神经网络成功的关键——同一层使用相同卷积核参数,显著减少参数量同时赋予平移不变性。迁移学习利用预训练模型参数作为初始值在目标任务上微调,降低训练成本。

结构模型与计量经济学中的参数

在结构计量经济学中,参数具有明确的经济学含义。行为参数如风险厌恶系数和跨期替代弹性,描述消费者偏好结构;技术参数如生产函数中的要素产出弹性和全要素生产率,刻画技术关系;政策参数如税率和补贴率,反映政策工具力度。结构参数的估计面临识别问题——需要足够的外生变异性来区分不同参数的影响。间接推断模拟矩估计通过匹配模型矩与数据矩来估计参数,适用于似然函数难处理的情况。校准在 DSGE 模型中广泛使用:研究者依据微观证据预设部分参数值使模型匹配关键宏观矩。稳健推断评估参数不确定性下结论的可靠性。

参数与非参数方法的比较

参数方法假设数据来自已知形式的分布族,仅需估计有限个参数,具有效率高、可解释性强等优点。非参数方法不假定具体形式或分布类型,灵活性更强但需要更大样本量且效率较低。半参数方法介于两者之间——如部分线性模型同时包含线性参数部分和非参数光滑部分。模型选择在参数方法中尤为重要:过少的参数导致偏差(欠拟合),过多的参数导致方差增大(过拟合),AIC、BIC 和交叉验证帮助平衡偏差与方差。非参数贝叶斯方法(如狄利克雷过程混合模型)允许参数数量随数据自适应增长,融合了参数推断效率与非参数灵活性。

参考文献

  1. Fisher, R. A. (1922). On the mathematical foundations of theoretical statistics. *Philosophical Transactions of the Royal Society of London. Series A*, 222(594–604), 309–368.
  2. Neyman, J. (1937). Outline of a theory of statistical estimation based on the classical theory of probability. *Philosophical Transactions of the Royal Society of London. Series A*, 236(767), 333–380.
  3. Efron, B. (1979). Bootstrap methods: Another look at the jackknife. *The Annals of Statistics*, 7(1), 1–26.
  4. Pearson, K. (1894). Contributions to the mathematical theory of evolution. *Philosophical Transactions of the Royal Society of London. A*, 185, 71–110.
  5. Cox, D. R., \& Hinkley, D. V. (1974). *Theoretical Statistics*. Chapman and Hall.
  6. Lehmann, E. L., \& Casella, G. (1998). *Theory of Point Estimation* (2nd ed.). Springer.
  7. Hayashi, F. (2000). *Econometrics*. Princeton University Press.
  8. Efron, B., \& Hastie, T. (2016). *Computer Age Statistical Inference*. Cambridge University Press.