LSDA

作者: qniguoym | 来源:发表于2017-07-19 16:04 被阅读0次

    LDA

    PCA,ICA,对于样本数据来言,可以是没有类别标签y的。

    线性判别分析(二类情况)y=1或y=0,给定特征为d维的N个样例,我们觉得原始特征数太多,想将d维特征降到只有一维,而又要保证类别能够清晰地反应在低维数据上,也就是这一维就能决定每个样例的类别。
    假设x是2维的,我们就要找一条直线(方向为w)来做投影,寻找最能使样本点分离的直线。

    图一 使样本点分离的直线

     右图比较好,可以很好地将不同类别的样本点分离。
     从定量的角度来寻找最佳的w。



    1.寻找每类样本的均值(中心点:


    图二 每类样本的中心点
    由x到w投影后的样本点均值为:
    投影后的样本点均值
    可知,投影后的均值即样本中心点的投影。
    2.最佳的直线的确定:投影后的两类样本中心点尽量分离。


    J(w)越大越好,同时还要考虑样本点之间的方差,方差越大,样本点越难以分离。
     使用另外一个度量值,称作散列值,对投影后的类求散列值,如下:

    散列值

     可以看出,散列值的几何意义是样本点的密集程度,值越大,越分散,反之,越集中。
     所以,最终的度量公式是:


    我们只需要寻找使J(w)最大的w即可。


    公式推导

    前面是针对只有两个类的情况,假设类别变成多个了,一维可能已经不能满足要求,假设有C个类别,需要k维向量(基向量)来做投影。


    相关文章

      网友评论

          本文标题:LSDA

          本文链接:https://www.haomeiwen.com/subject/bgrkkxtx.html