降维

作者: AntiGravity | 来源:发表于2022-01-20 17:41 被阅读0次

    为什么要降维

    不降维可能过拟合。

    目的

    • 找到宏观信息

      1. 找到潜在变量
      2. 选出重要变量
        高维稀疏向量的局部信息过多,例如购买商品。
    • 找到交叉效应

    • 不建议先降维再拟合模型

      • 丢失局部信息
      • 先验知识很有限

    PCA

    将原样本x投影到各个主成分上,使在主成分方向投影的方差最大(从第一个开始每个都最大),且不同主成分之间不相关。


    NMF(X非负)

    分解X(原样本)=B(基向量)W(权重)
    损失函数:||X-BW||F (frobenius norm)


    tSNE

    非线性降维。
    目标 - 高维原样本x → 低维新样本y
    定义xi与xj的相似度 - 以xi为中心的高斯分布的xj的概率密度
    高斯核σ - 数据越密取值越小(可按局部数据空间密度变化)
    定义yi与yj的相似度 - 柯西分布(学生t-分布,即tSNE的t)
    定义yi的位置 - 以x与y分布的KL散度为损失函数


    实现

    隐藏维度选取:根据数据
    数据预处理:标准化;选重要数据;去掉过于稀疏的;可构建2、3折交叉

    相关文章

      网友评论

          本文标题:降维

          本文链接:https://www.haomeiwen.com/subject/xvthohtx.html