求解最小二乘

前面说了,对regression问题最小风险泛函(risk functional)的结果是

\[f(x) = \mathrm{E}(Y|X=x)\]

现在我们对$f(x)$做线性参数假设,然后用最小二乘来求解参数,就有

\[\mathrm{RSS}(\boldsymbol{\beta}) = \frac{1}{2} (\mathbf{y} - X\boldsymbol{\beta})^T (\mathbf{y} - X\boldsymbol{\beta})\]

其中\(X\)是一个\(N\times (p+1)\)的矩阵,p是维数。对\(\boldsymbol{\beta}\)求导,得

\[\begin{align*} \frac{\partial \mathrm{RSS}}{\partial \boldsymbol{\beta}} &= - X^T(y-X\boldsymbol{\beta}) \\ \frac{\partial^2 \mathrm{RSS}}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^2} &= X^T X \end{align*}\]

可见当\(X\)列满秩时,二阶偏导正定,于是就得到最小二乘估计:

\[\hat{\boldsymbol{\beta}} = (X^TX)^{-1}X^Ty\]

若\(X\)的列不是线性无关的,比如说数据点\(X_{2} = 3X_{1}\)(一行一个数据点),那\(X^TX\)就不好求逆了,岂不是悲剧了?解决办法就是简单地『recoding and/or dropping redundant columns in \(X\)』,这事听起来玄乎,其实只要把\((X^TX)^{-1}X^T\)这东西看作\(X\)的伪逆就可以了,记得伪逆怎么求吗?瘦SVD分解就好了。

回归分析

接下来是一堆回归分析的内容,可参考Statistical Inference 11.3。这部分内容我以后再补回来。

无偏估计和Variance/Bias tradeoff

然后提到\(\hat{\theta}=\mathbf{a}^T \hat{\boldsymbol{\beta}}\)是一个无偏估计,即\(\mathrm{E}(\mathbf{a}^T\hat{\boldsymbol{\beta}}) = \mathbf{a}^T \boldsymbol{\beta}\),而根据Gauss-Markov Theorem, 在所有的无偏估计中,\(\hat{\theta}\)是方差最小的。由:

\[\begin{align*} \mathbf{MSE}(\tilde{\theta}) &= \mathbf{E}(\tilde{\theta}-\theta)^2 \\ &= \mathbf{Var}(\tilde{\theta}) + [\mathbf{E}(\tilde{\theta}) - \theta]^2 \end{align*}\]

可知,这玩意儿也是所有无偏估计中,MSE最小的。当然某个有偏估计,可以通过bias较小的增加换取variance较大的减少,从而得到更小的MSE,这就是后面ridge regession等一票方法干的事情,bias-variance trade off

数据正交化

最后讲到正交化,对于一维数据,经推导可知,

\[\hat{\boldsymbol{\beta}} = \frac{X^T \mathbf{y}}{X^TX}\]

其中\(X\)是一个N维向量,每一维代表一个点。然后容易验证,对于高维情况,如果输入数据是正交的话,也就是\(X_j^T X_k = 0, \forall j \neq k\),那么第j维的\(\hat{\boldsymbol{\beta}_j} = \frac{X_j^T \mathbf{y}}{X_j^TX_j}\)

也就是说,第\(j\)维的weight和其他维没关系了。这个性质就很好,意味着如果我们的显著性检验发现某一维没用,直接把这一维扔掉就好了,不用整个再重算。

通常我们的输入数据没那么巧是正交的,但我们可以把数据变换一下做成正交的。

这部分内容我认为书上写得不好,应该先从QR分解来看,任何矩阵都可以做QR分解(偷懒我矩阵就不加粗了):

\[A = QR\]

其中\(Q \in \mathbb{R}^{m\times m}\),列正交;\(R \in \mathbb{R}^{m\times m}\),上三角。由此,A的前k列可以写成这样:

\[a_k = \sum_{i=1}^k r_{ik} q_i\]

变换一下就得到

\[q_k = \left (a_k - \sum_{i=1}^{k-1} r_{ik} q_i \right ) \big / r_{kk}\]

这就是书中Gram-Schmidt正交化的基础。具体可参考Matrix Computation第五章。