[Note]ESL-3.2节-Linear Regression Models and Least Squares

求解最小二乘

前面说了，对regression问题最小风险泛函（risk functional）的结果是

\[f(x) = \mathrm{E}(Y|X=x)\]

现在我们对$f(x)$做线性参数假设，然后用最小二乘来求解参数，就有

\[\mathrm{RSS}(\boldsymbol{\beta}) = \frac{1}{2} (\mathbf{y} - X\boldsymbol{\beta})^T (\mathbf{y} - X\boldsymbol{\beta})\]

其中$X$是一个$N\times (p+1)$的矩阵，p是维数。对$\boldsymbol{\beta}$求导，得

\[\begin{align*} \frac{\partial \mathrm{RSS}}{\partial \boldsymbol{\beta}} &= - X^T(y-X\boldsymbol{\beta}) \\ \frac{\partial^2 \mathrm{RSS}}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^2} &= X^T X \end{align*}\]

可见当$X$列满秩时，二阶偏导正定，于是就得到最小二乘估计：

\[\hat{\boldsymbol{\beta}} = (X^TX)^{-1}X^Ty\]

若$X$的列不是线性无关的，比如说数据点$X_{2} = 3X_{1}$（一行一个数据点），那$X^TX$就不好求逆了，岂不是悲剧了？解决办法就是简单地『recoding and/or dropping redundant columns in $X$』，这事听起来玄乎，其实只要把$(X^TX)^{-1}X^T$这东西看作$X$的伪逆就可以了，记得伪逆怎么求吗？瘦SVD分解就好了。

回归分析

接下来是一堆回归分析的内容，可参考Statistical Inference 11.3。这部分内容我以后再补回来。

无偏估计和Variance/Bias tradeoff

然后提到$\hat{\theta}=\mathbf{a}^T \hat{\boldsymbol{\beta}}$是一个无偏估计，即$\mathrm{E}(\mathbf{a}^T\hat{\boldsymbol{\beta}}) = \mathbf{a}^T \boldsymbol{\beta}$，而根据Gauss-Markov Theorem，在所有的无偏估计中，$\hat{\theta}$是方差最小的。由：

\[\begin{align*} \mathbf{MSE}(\tilde{\theta}) &= \mathbf{E}(\tilde{\theta}-\theta)^2 \\ &= \mathbf{Var}(\tilde{\theta}) + [\mathbf{E}(\tilde{\theta}) - \theta]^2 \end{align*}\]

可知，这玩意儿也是所有无偏估计中，MSE最小的。当然某个有偏估计，可以通过bias较小的增加换取variance较大的减少，从而得到更小的MSE，这就是后面ridge regession等一票方法干的事情，bias-variance trade off

数据正交化

最后讲到正交化，对于一维数据，经推导可知，

\[\hat{\boldsymbol{\beta}} = \frac{X^T \mathbf{y}}{X^TX}\]

其中$X$是一个N维向量，每一维代表一个点。然后容易验证，对于高维情况，如果输入数据是正交的话，也就是$X_j^T X_k = 0, \forall j \neq k$，那么第j维的$\hat{\boldsymbol{\beta}_j} = \frac{X_j^T \mathbf{y}}{X_j^TX_j}$

也就是说，第$j$维的weight和其他维没关系了。这个性质就很好，意味着如果我们的显著性检验发现某一维没用，直接把这一维扔掉就好了，不用整个再重算。

通常我们的输入数据没那么巧是正交的，但我们可以把数据变换一下做成正交的。

这部分内容我认为书上写得不好，应该先从QR分解来看，任何矩阵都可以做QR分解（偷懒我矩阵就不加粗了）：

\[A = QR\]

其中$Q \in \mathbb{R}^{m\times m}$，列正交；$R \in \mathbb{R}^{m\times m}$，上三角。由此，A的前k列可以写成这样：

\[a_k = \sum_{i=1}^k r_{ik} q_i\]

变换一下就得到

\[q_k = \left (a_k - \sum_{i=1}^{k-1} r_{ik} q_i \right ) \big / r_{kk}\]

这就是书中Gram-Schmidt正交化的基础。具体可参考Matrix Computation第五章。

求解最小二乘

回归分析

无偏估计和Variance/Bias tradeoff

数据正交化

Enjoy Reading This Article?