[Note]ESL-第8章 Model Inference and Averaging (一)
这一章的开头4节都在讲bootstrap。Bootstrap在技术上非常简单,用『有放回的重抽样』就可以概括;但它背后的原理极其复杂,基于一个被称为Edgeworth的正态展开(类似于泰勒级数),特别当针对一个pivot做bootstrap时,可以得到二阶的精度。ESL这一章并没有探讨bootstrap的原理,而主要描述了方法和现象,Efron有一本专门的著作『An Introduction to the Bootstrap』。
通过Bootstrap抽样,我们可以通过计算机对给定数据的性质进行估计,包括样本均值的方差,样本方差的方差,估计值的置信区间,等等等等。待估计的这个估计量是任意的,举例来说,如果我们要估计某个估计量
其中
所谓非参数bootstrap是指bootstrap样本抽样来自原始的样本,不涉及参数估计;而参数的bootstrap会假设一个样本发生模型,然后从样本中推断出模型的参数(一般是MLE),最后从估计的这个模型中sample出bootstrap样本(后面有例子具体说明)。
Bootstrap与最小二乘的置信区间
书上是这样定义这个问题的:对于一组(一维)数据,我们用三次样条进行拟合,样条结点选取在
由最小二乘解出
接下去要找到预测值的standard error,令
上式中取近似的那一步假设
图8.2右上画出了拟合曲线的
稍微解释一下,以上的置信区间是这么算的:首先假设
而右下图画出了bootstrap方法得到的拟合曲线的
- 从训练集中重抽样出
个bootstrap训练集,每个训练集包含 个样本; - 对每一个训练集
拟合得到一个三次样条 - 在每一个
处找第 大和第 小的值,这样得到 的置信区间
以上方法被称为『非参数boostrap』,因为这是直接从训练集出发抽样得到新的数据集,而不是从参数模型中sample得到数据集。
与之相对的是『参数bootstrap』,在参数化的方法中:
- 我们首先假设一个样本生成模型,例如高斯扰动
- 通过(使用样条的)最小二乘得到均值
和方差 - 对每一个训练集中的
,通过上述模型sample出一组新的 ,共 个训练数据点: - 产生
个bootstrap训练集,对每一个重新拟合三次样条,得到 - 通过和非参数bootstrap一样的方法得到置信区间
我们注意到
Bootstrap与最大似然的置信区间
上面的分析展示了bootstrap和最小二乘的关系,而我们知道最小二乘和假设正态误差后求MLE是一回事情:
求解最大似然可以得到
这一节的关键在于最大似然估计的置信区间,用到了最大似然的渐进性质。MLE的渐进分析基于这样一个方法:将似然函数
最大似然函数的二阶导矩阵被称为information matrix,而它的期望
这里下标
MLE有一个重要的渐进性质,在绝大多数情况下,有
其中
有了这个结论,就可以构造MLE的置信区间了,很显然得到的是和最小二乘相同的置信区间。
Bootstrap与贝叶斯方法
这一节我没有特别理解,大意是说给定noninformative的先验,那么贝叶斯后验和MLE就非常相似了,Bootstrap可用于这种情况下贝叶斯方法的估计。这显然是一定的:例如,令
当
Enjoy Reading This Article?
Here are some more articles you might like to read next: