二次型 (Quadratic Form)
二次型 (Quadratic Form)是线性代数与矩阵理论中的核心概念,在计量经济学 、最优化理论 和数理统计 中具有极为广泛的应用。形式上,一个关于 n n n 维向量 x ∈ R n \mathbf{x} \in \mathbb{R}^n x ∈ R n 的二次型定义为:
Q ( x ) = x T A x = ∑ i = 1 n ∑ j = 1 n a i j x i x j Q(\mathbf{x}) = \mathbf{x}^T \mathbf{A} \mathbf{x} = \sum_{i=1}^{n} \sum_{j=1}^{n} a_{ij} x_i x_j Q ( x ) = x T Ax = i = 1 ∑ n j = 1 ∑ n a ij x i x j
其中 A \mathbf{A} A 为 n × n n \times n n × n 实矩阵。不失一般性,通常假定 A \mathbf{A} A 为对称矩阵,因为任意方阵均可通过 B = 1 2 ( A + A T ) \mathbf{B} = \frac{1}{2}(\mathbf{A} + \mathbf{A}^T) B = 2 1 ( A + A T ) 对称化而不改变二次型的值,即 x T A x = x T ( A + A T 2 ) x \mathbf{x}^T \mathbf{A} \mathbf{x} = \mathbf{x}^T \left(\frac{\mathbf{A} + \mathbf{A}^T}{2}\right) \mathbf{x} x T Ax = x T ( 2 A + A T ) x 。二次型是关于 x \mathbf{x} x 的齐二次多项式,不含一次项或常数项,其几何意义与二次曲面、椭圆抛物面等密切相关。
定号性与特征值判定
二次型的定性(Definiteness)是其在经济学中最重要的性质之一。对于对称矩阵 A \mathbf{A} A ,定义:
正定 (Positive Definite):对所有 x ≠ 0 \mathbf{x} \neq \mathbf{0} x = 0 ,有 x T A x > 0 \mathbf{x}^T \mathbf{A} \mathbf{x} > 0 x T Ax > 0 。记为 A ≻ 0 \mathbf{A} \succ 0 A ≻ 0 。半正定 (Positive Semidefinite):对所有 x \mathbf{x} x ,有 x T A x ≥ 0 \mathbf{x}^T \mathbf{A} \mathbf{x} \geq 0 x T Ax ≥ 0 。记为 A ⪰ 0 \mathbf{A} \succeq 0 A ⪰ 0 。负定 (Negative Definite):对所有 x ≠ 0 \mathbf{x} \neq \mathbf{0} x = 0 ,有 x T A x < 0 \mathbf{x}^T \mathbf{A} \mathbf{x} < 0 x T Ax < 0 。记为 A ≺ 0 \mathbf{A} \prec 0 A ≺ 0 。不定 (Indefinite):存在 x 1 , x 2 \mathbf{x}_1, \mathbf{x}_2 x 1 , x 2 使 x 1 T A x 1 > 0 \mathbf{x}_1^T \mathbf{A} \mathbf{x}_1 > 0 x 1 T A x 1 > 0 且 x 2 T A x 2 < 0 \mathbf{x}_2^T \mathbf{A} \mathbf{x}_2 < 0 x 2 T A x 2 < 0 。
定性判定可通过两种等价方法实现:
(一)特征值法 :设对称矩阵 A \mathbf{A} A 的特征值为 λ 1 , λ 2 , … , λ n \lambda_1, \lambda_2, \dots, \lambda_n λ 1 , λ 2 , … , λ n ,则:
A ≻ 0 ⟺ λ i > 0 , ∀ i ; A ⪰ 0 ⟺ λ i ≥ 0 , ∀ i \mathbf{A} \succ 0 \iff \lambda_i > 0, \; \forall i; \qquad \mathbf{A} \succeq 0 \iff \lambda_i \geq 0, \; \forall i A ≻ 0 ⟺ λ i > 0 , ∀ i ; A ⪰ 0 ⟺ λ i ≥ 0 , ∀ i
类似地,A ≺ 0 \mathbf{A} \prec 0 A ≺ 0 当且仅当所有特征值严格为负。这是最简洁的判定方式,但计算特征值有时并不经济。
(二)顺序主子式法(Sylvester准则) :记 Δ k \Delta_k Δ k 为 A \mathbf{A} A 的 k k k 阶顺序主子式(即前 k k k 行 k k k 列构成子矩阵的行列式),则:
A ≻ 0 ⟺ Δ k > 0 , k = 1 , 2 , … , n \mathbf{A} \succ 0 \iff \Delta_k > 0, \; k = 1, 2, \dots, n A ≻ 0 ⟺ Δ k > 0 , k = 1 , 2 , … , n
负定时,顺序主子式需满足符号交替条件:( − 1 ) k Δ k > 0 (-1)^k \Delta_k > 0 ( − 1 ) k Δ k > 0 。此方法在海塞矩阵 的极值判定中尤为常用。
二次型的谱分解与几何意义
对称矩阵 A \mathbf{A} A 可正交对角化:A = P Λ P T \mathbf{A} = \mathbf{P} \mathbf{\Lambda} \mathbf{P}^T A = PΛ P T ,其中 P \mathbf{P} P 为正交矩阵,Λ = diag ( λ 1 , … , λ n ) \mathbf{\Lambda} = \operatorname{diag}(\lambda_1, \dots, \lambda_n) Λ = diag ( λ 1 , … , λ n ) 。代入二次型得:
Q ( x ) = x T P Λ P T x = y T Λ y = ∑ i = 1 n λ i y i 2 , y = P T x Q(\mathbf{x}) = \mathbf{x}^T \mathbf{P} \mathbf{\Lambda} \mathbf{P}^T \mathbf{x} = \mathbf{y}^T \mathbf{\Lambda} \mathbf{y} = \sum_{i=1}^{n} \lambda_i y_i^2, \qquad \mathbf{y} = \mathbf{P}^T \mathbf{x} Q ( x ) = x T PΛ P T x = y T Λy = i = 1 ∑ n λ i y i 2 , y = P T x
这意味着任何二次型均可通过正交变换化为标准型(对角形),仅含平方项而无交叉项。在几何上,当 A ≻ 0 \mathbf{A} \succ 0 A ≻ 0 时,x T A x = c \mathbf{x}^T \mathbf{A} \mathbf{x} = c x T Ax = c 是 R n \mathbb{R}^n R n 中的一个椭球(ellipsoid),主轴方向由特征向量给定,半轴长度与 1 / λ i 1/\sqrt{\lambda_i} 1/ λ i 成正比。
与之相关的还有二次型的瑞利商 (Rayleigh Quotient):
R ( A , x ) = x T A x x T x , x ≠ 0 R(\mathbf{A}, \mathbf{x}) = \frac{\mathbf{x}^T \mathbf{A} \mathbf{x}}{\mathbf{x}^T \mathbf{x}}, \qquad \mathbf{x} \neq \mathbf{0} R ( A , x ) = x T x x T Ax , x = 0
其值域为 [ λ min , λ max ] [\lambda_{\min}, \lambda_{\max}] [ λ m i n , λ m a x ] 。此性质在主成分分析 (PCA)和岭回归 的收缩性质分析中起关键作用。
计量经济学中的应用
(一)OLS估计量的方差-协方差矩阵
在经典线性回归模型 y = X β + ε \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} y = X β + ε 中,普通最小二乘 (OLS)估计量为 β ^ = ( X T X ) − 1 X T y \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} β ^ = ( X T X ) − 1 X T y 。其方差-协方差矩阵为:
Var ( β ^ ) = σ 2 ( X T X ) − 1 \operatorname{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1} Var ( β ^ ) = σ 2 ( X T X ) − 1
对于任一线性组合 c T β ^ \mathbf{c}^T \hat{\boldsymbol{\beta}} c T β ^ ,其方差 σ 2 c T ( X T X ) − 1 c \sigma^2 \mathbf{c}^T (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{c} σ 2 c T ( X T X ) − 1 c 恰为关于 c \mathbf{c} c 的二次型。由于 X T X \mathbf{X}^T \mathbf{X} X T X 正定(当 X \mathbf{X} X 列满秩时),该方差恒为正。
(二)回归平方和的二次型表示
回归平方和(ESS)与残差平方和(RSS)均可写为 y \mathbf{y} y 的二次型:
ESS = y T [ X ( X T X ) − 1 X T ] y = y T P X y \text{ESS} = \mathbf{y}^T \left[\mathbf{X}(\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T\right] \mathbf{y} = \mathbf{y}^T \mathbf{P}_{\mathbf{X}} \mathbf{y} ESS = y T [ X ( X T X ) − 1 X T ] y = y T P X y
RSS = y T [ I − P X ] y = y T M X y \text{RSS} = \mathbf{y}^T \left[\mathbf{I} - \mathbf{P}_{\mathbf{X}}\right] \mathbf{y} = \mathbf{y}^T \mathbf{M}_{\mathbf{X}} \mathbf{y} RSS = y T [ I − P X ] y = y T M X y
其中 P X \mathbf{P}_{\mathbf{X}} P X 为投影矩阵(幂等且对称),M X \mathbf{M}_{\mathbf{X}} M X 为残差生成矩阵。两者均为半正定矩阵——这是二次型正半定性在回归几何中的直接体现。进一步,F F F 检验统计量可写为两个二次型之比:
F = y T Q 1 y / q y T Q 2 y / ( n − k ) F = \frac{\mathbf{y}^T \mathbf{Q}_1 \mathbf{y} / q}{\mathbf{y}^T \mathbf{Q}_2 \mathbf{y} / (n-k)} F = y T Q 2 y / ( n − k ) y T Q 1 y / q
其中 Q 1 , Q 2 \mathbf{Q}_1, \mathbf{Q}_2 Q 1 , Q 2 为适当的幂等矩阵。
(三)Wald检验与二次型
Wald检验 统计量本质上是一个二次型。对于假设 H 0 : R β = r H_0: \mathbf{R}\boldsymbol{\beta} = \mathbf{r} H 0 : R β = r ,Wald统计量为:
W = ( R β ^ − r ) T [ R V a r ^ ( β ^ ) R T ] − 1 ( R β ^ − r ) W = (\mathbf{R}\hat{\boldsymbol{\beta}} - \mathbf{r})^T \left[\mathbf{R} \operatorname{\hat{Var}}(\hat{\boldsymbol{\beta}}) \mathbf{R}^T\right]^{-1} (\mathbf{R}\hat{\boldsymbol{\beta}} - \mathbf{r}) W = ( R β ^ − r ) T [ R Var ^ ( β ^ ) R T ] − 1 ( R β ^ − r )
在 H 0 H_0 H 0 下,W → d χ q 2 W \xrightarrow{d} \chi^2_q W d χ q 2 ,其分布理论完全依赖于正态随机向量的二次型性质。
二次型与随机向量的分布
若 z ∼ N ( 0 , I n ) \mathbf{z} \sim N(\mathbf{0}, \mathbf{I}_n) z ∼ N ( 0 , I n ) ,则 z T A z ∼ χ r 2 \mathbf{z}^T \mathbf{A} \mathbf{z} \sim \chi^2_r z T Az ∼ χ r 2 当且仅当 A \mathbf{A} A 为幂等矩阵且秩为 r r r 。更一般地,若 z ∼ N ( μ , Σ ) \mathbf{z} \sim N(\boldsymbol{\mu}, \mathbf{\Sigma}) z ∼ N ( μ , Σ ) ,则:
z T A z ∼ χ r 2 ( δ ) , δ = μ T A μ \mathbf{z}^T \mathbf{A} \mathbf{z} \sim \chi^2_r(\delta), \qquad \delta = \boldsymbol{\mu}^T \mathbf{A} \boldsymbol{\mu} z T Az ∼ χ r 2 ( δ ) , δ = μ T A μ
当 A Σ \mathbf{A} \mathbf{\Sigma} AΣ 为幂等且 Σ \mathbf{\Sigma} Σ 可逆时成立,其中 δ \delta δ 为非中心参数。这一系列结论是计量经济学中几乎所有假设检验——t t t 检验、F F F 检验、LM检验 ——的分布理论基础。
此外,两个二次型 z T A z \mathbf{z}^T \mathbf{A} \mathbf{z} z T Az 与 z T B z \mathbf{z}^T \mathbf{B} \mathbf{z} z T Bz 独立的条件为 A Σ B = 0 \mathbf{A} \mathbf{\Sigma} \mathbf{B} = \mathbf{0} AΣB = 0 (Craig定理)。此性质在回归方差分析中保证ESS与RSS的独立性,从而确保F F F 统计量的分布推导有效。
最优化理论与海塞矩阵
在无约束最优化中,目标函数 f ( x ) f(\mathbf{x}) f ( x ) 在驻点 x ∗ \mathbf{x}^* x ∗ 处的二阶泰勒展开为:
f ( x ∗ + h ) ≈ f ( x ∗ ) + 1 2 h T ∇ 2 f ( x ∗ ) h f(\mathbf{x}^* + \mathbf{h}) \approx f(\mathbf{x}^*) + \frac{1}{2} \mathbf{h}^T \nabla^2 f(\mathbf{x}^*) \mathbf{h} f ( x ∗ + h ) ≈ f ( x ∗ ) + 2 1 h T ∇ 2 f ( x ∗ ) h
其中 ∇ 2 f ( x ∗ ) \nabla^2 f(\mathbf{x}^*) ∇ 2 f ( x ∗ ) 为海塞矩阵 ,h T ∇ 2 f h \mathbf{h}^T \nabla^2 f \mathbf{h} h T ∇ 2 f h 是一个二次型。极值的二阶充分条件直接等价于该二次型的定性:
海塞矩阵正定 ⟺ \iff ⟺ 严格局部极小值 海塞矩阵负定 ⟺ \iff ⟺ 严格局部极大值
在带约束优化中,加边海塞矩阵 对应的二次型 v T ∇ x x 2 L ⋅ v \mathbf{v}^T \nabla^2_{\mathbf{x}\mathbf{x}} \mathcal{L} \cdot \mathbf{v} v T ∇ xx 2 L ⋅ v (约束在切空间 v T D g = 0 \mathbf{v}^T Dg = \mathbf{0} v T D g = 0 上)的定性决定了条件极值的性质。消费者理论中效用最大化 和成本最小化 的二阶条件即由此给出。
金融与投资组合理论
在马科维茨均值-方差模型 中,投资组合的方差是一个关于权重向量 w \mathbf{w} w 的二次型:
σ p 2 = w T Σ w \sigma_p^2 = \mathbf{w}^T \mathbf{\Sigma} \mathbf{w} σ p 2 = w T Σw
其中 Σ \mathbf{\Sigma} Σ 为资产收益率的协方差矩阵(至少半正定)。在最小方差组合的求解中,给定目标收益 μ p \mu_p μ p 及预算约束 w T 1 = 1 \mathbf{w}^T \mathbf{1} = 1 w T 1 = 1 ,问题化为二次规划:
min w 1 2 w T Σ w s.t. w T μ = μ p , w T 1 = 1 \min_{\mathbf{w}} \frac{1}{2} \mathbf{w}^T \mathbf{\Sigma} \mathbf{w} \quad \text{s.t.} \quad \mathbf{w}^T \boldsymbol{\mu} = \mu_p, \quad \mathbf{w}^T \mathbf{1} = 1 w min 2 1 w T Σw s.t. w T μ = μ p , w T 1 = 1
最优组合权重显式依赖于 Σ − 1 \mathbf{\Sigma}^{-1} Σ − 1 ,而分散化效应的大小取决于协方差矩阵的非对角元素——最小特征值对应的特征向量方向即为最小方差方向。
二次型与克罗内克积
在处理矩阵变量时,二次型与克罗内克积 和向量化算子结合。例如,对于矩阵 X \mathbf{X} X 和对称正定矩阵 Ω , Ψ \mathbf{\Omega}, \mathbf{\Psi} Ω , Ψ ,迹形式与二次型等价:
tr ( X T Ω X Ψ ) = vec ( X ) T ( Ψ ⊗ Ω ) vec ( X ) \operatorname{tr}(\mathbf{X}^T \mathbf{\Omega} \mathbf{X} \mathbf{\Psi}) = \operatorname{vec}(\mathbf{X})^T (\mathbf{\Psi} \otimes \mathbf{\Omega}) \operatorname{vec}(\mathbf{X}) tr ( X T ΩXΨ ) = vec ( X ) T ( Ψ ⊗ Ω ) vec ( X )
这种表示在广义最小二乘 (GLS)和面板数据模型的SUR (似不相关回归)估计中频繁出现,使得多方程系统的方差结构可以统一用二次型语言描述。