[Note]ESL-4.3-Linear Discriminant Analysis
LDA的建模和分类面
现有分类
LDA/QDA模型的基本假设是likelihood
对于LDA而言,其假设所有类的协方差矩阵都相等,即
下面我们考察LDA的分类面(decision boundary):
可见这是
相应的,QDA的判别函数为:
注意到这是
参数估计和分类
最后分类,很显然应该将样本归入判别函数较大的那一类去:
当然判别函数中相关的参数需要通过样本来估计,无偏估计为:
其中
Fisher降维
我发现网上大部分笔记对这一节都没有深入介绍,当然书上这部分也的确写得不是很直观。我尽可能做一份详细的注解,方便后来同学理解。
这一节所有的大写
基于协方差的投影变换(样本球形化)
从式
答案是肯定的,我们知道协方差矩阵
可得:
这样,给定一个新样本$\mathbf{x}$,LDA就可以通过如下两步计算进行分类:
- 对输入样本球形化(sphere):
- 在新的空间中,计算
和各类中心点 的欧几里德距离(2-范数),并把它归入与之距离最小的那个类(注意还需乘上先验 )
第1步之所以被称作『球形化』,是因为协方差矩阵
降维
由上一节我们看到,通过球形化样本,将数据投射到一个新的空间,在这个空间中,协方差矩阵
进一步的,这
那么接下来的问题是,能不能进一步降维到
Fisher的回答是,只要投影后各类中心点尽可能地散开,那这就是一个好的降维方法。而所谓『尽可能地散开』就是『variance尽可能大』的意思。
基于这个思想,Fisher提出了以下投影方法:
- 计算每个类的中心点,得到中心点矩阵
- 计算类内(within-class)的协方差矩阵
- 计算中心点投影
(利用特征值分解 ) - 计算投影后的类间(between-class)协方差矩阵
, 其中 表示 的第 行转置后得到的向量, - 计算
的特征值分解 , 的各列向量 就定义了(Fisher)最优的投影子空间(按对应特征值由大到小顺序排列) - 得到原始样本的Fisher主元
,其中
我对以上步骤做一些说明:
-
第2步计算
,根据我们上一节的描述 ,这个变换将中心点投影到一个新的子空间 ,在这个空间中,类内(within-class)样本的协方差 -
第5步计算
的特征向量,按对应特征值从大到小其实是以下优化目标的解(可参考PCA)
-
第4步我们把投影变换展开,可得
,定义 ,有 ,这也就是第6步中的 -
另外以上所谓的『协方差矩阵』并不是严格意义上的『样本协方差矩阵』。由于我们只对最优化解感兴趣,协方差前面乘以的常数并不影响最终结果。
综上我们可以总结得到,Fisher变换是在解如下优化问题:
或者等价的:
即,使得降维后样本的类间(between-class)方差尽可能地大,而类内(with-class)方差尽可能地小。
LDA和Logistic Regression的比较
这一节我们比较一下Linear Discriminent Analysis和Logistic Regression。对于LDA,由
相应的Logistic Regression的分类面:
可见两者实质是一样的。但对于参数估计而言,LDA估计的是高斯分布下的均值和方差。从这点看,LR的假设更弱,因而也更general一些。
另外由
Enjoy Reading This Article?
Here are some more articles you might like to read next: