[Note]ESL-第7章 Model Assesment and Selection (三)
这一章最后介绍了两个extra-sample的评测指标。这部分有些东西还是没太看明白,姑且先浅尝辄止吧。
Cross Validation
把数据集分成\(K\)份,其中\((K-1)\)份用于training,\(1\)份用于validation,运行\(K\)次,取平均:
\[\operatorname{CV}(\hat{f}, \alpha) = \frac{1}{N} \sum_{i=1}^N L(y_i, \hat{f}^{-\kappa(i)}(x_i, \alpha))\]其中\(\hat{f}^{-\kappa(i)}\)表示训练集不包含第\(i\)个点的模型。如果\(K=N\),那么相对而言CV估计更接近于\(\operatorname{Err}_\mathcal{D}\)(可参考本章第一篇笔记),因为每个fold的training set都差不多;而对\(K=5\)或\(10\)的CV,估计更接近于\(\operatorname{Err}\)
后问介绍了使用CV的一些正确和错误的方法,关键在于要严格区分评测集和训练集,评测集中的数据不应该在训练集中出现,不管以何种方式。
Bootstrap
Bootstrap就是有放回的重抽样,产生\(B\)个训练集后,进行评估:
\[\widehat{\operatorname{Err}}^{(1)} = \frac{1}{N} \sum_{i=1}^N \frac{1}{|C^{-i}|} \sum_{b\in C^{-i}} L(y_i, \hat{f}^{*b}(x_i))\]其中\(C^{-i}\)表示不包含第\(i\)个点的bootstrap样本集的集合。书上又说,平均而言,在一个bootstrap样本集中,大约有\(0.632\cdot N\)个样本在这个样本集中是唯一的,如此一来当模型在训练集大小为\(N/2\)处很敏感的话(例如样本数超过\(N/2\)对模型效果会有大的提升),那么\(\widehat{\operatorname{Err}}^{(1)}\)就会高估模型的bias,于是引入了『\(.632\)统计量』:
\[\widehat{\operatorname{Err}}^{(.632)} = .368 \cdot \overline{\operatorname{err}} + .632 \cdot \widehat{\operatorname{Err}}^{(1)}\]Enjoy Reading This Article?
Here are some more articles you might like to read next: