[Note]ESL笔记-第2章
风险最小化(ERM)原则
2.4节介绍了寻找\(f(x)\)逼近\(y\)的框架,以EPE(Expected squared Prediction Error)为例,
\[\begin{align*} \mathrm{EPE}(f) &= \mathrm{E}(Y-f(X))^2 \\ &= \int [y-f(x)]^2\mathrm{PR}(dx, dy) \end{align*}\]然后对泛函$f(x)$最小化,得到
\[f(x) = \mathrm{E}(Y|X=x)\]作为对期望的近似,可以用Avg代替,就有了
\[\hat{f}(x) = \mathrm{Avg}(y_i|x_i \in N_k(x))\]这就是KNN,当然也可以对$f(x)$做线性参数化假设,就是线性回归。
后面还七七八八提了一堆基于不同loss function导出的对泛函\(f(x)\)的估计, 比如说最小化\(E|Y-f(X)|\)来搞,就从期望变成中位数了。 这些可以统一到这么一个框架:
\[R(\alpha) = \int L(y, f(x, \alpha)) dF(x, y)\]\(F(x, y)\)是一个概率测度。目的是在特定的loss function $L$下最小化这个risk functional \(R(\alpha)\)(风险最小化原则),泛函的参数\(\alpha\)取值就是对$f$的假设。Vapnik的SLT里1.4节(中文缩减版1.3.2)就是EPE。
2.6节在这个框架的基础上,提了一个统计模型\(Y=f(X)+\epsilon\),框架这部分我认为其实作者写作没捋清楚,直接看SLT第一章吧。
维数灾难
2.5节讲维数灾难,高维空间越靠边界处点越集中,证明可见PRML 1.4节(1.75)前后。
领域方法
2.7节说我们要对\(\hat{f}\)加constraint,constraint的关键在邻域(neighborhood),例如对邻近的样本给出接近的预测值,否则会造成大的variance;以及『does not allow the neighborhood to be simultaneously small in all directions』(这句话没有很理解)。
Restricted Estimators
于是2.8节讲了一堆restricted estimators,就是restricted $\hat{f}$。包括正则化的RSS,kernel,dictionary methods。kernel是一个典型的邻域方法,KNN是一个特殊的kernel。dictionary methods里的basis function包括样条和radial等,Boosting和single-layer NN都可以看作是一种dictionary methods。
2.9节的头一段总结了2.8节这三样东西需要确定的参数: the multiplier of the penalty term; the width of the kernel; the number of basis functions.
Enjoy Reading This Article?
Here are some more articles you might like to read next: