稀疏模型优化

作者: shudaxu | 来源:发表于2020-10-15 18:10 被阅读0次

NN模型的特点:
在NN方向,稀疏特征多由embeding以及后续的交叉表达来体现(靠模型结构,隐层进行表达)。其优化的方向主要在于,如何将系统中id的embedding学得更好,使其能够反应当前domain,或者不同domain下的相似性,特点,为系统提升更好的泛化效果。

底层设计:对于常见的id特征来说,低频的id和高频的id拥有相同的embeding size(参数量)的话,可能会使高频的id表达能力欠缺(bias大),而低频的id过拟合(variance大),这两者同时会导致泛化误差增大。而且这类NN模型绝大部分参数量是embedding(模型自由度绝大部分由此提供),所以对这部分的优化也尤为重要。

上层设计:上层设计其实也是相对于线性模型的稀疏特征组成来讲的,因为线性模型多做特征交叉,所以其表达的特征,需要在NN的隐层中体现,所以隐层如何更好地抽取学习出特征之间的关系,提炼出交叉的表达便很重要。

所以,NN部分需要依赖底层的设计(针对高低频id的embeding size本身的动态优化)以及上层的设计(针对id之间关系的抽取表达,比如attention,CNN,residual等layer的设计与应用)共同优化稀疏特征的学习

线性模型的特点:
在Linear部分则是对大规模稀疏的交叉特征进行建模,增强模型记忆与更直接关系的推断能力。

系统层面:由于线性部分主要的特点是超高维特征空间,以及超量的参数空间,所以重点是针对这部分优化当前系统的训练以及预估效率。

特征工程层面:由于Linear部分更加依赖特征工程的挖掘,所以在特征的工程,特征的管理,分析上,需要投入一定的注意力。由于特征工程的需求,以及更多复杂特征的构建。需要考虑一定的特征筛选淘汰机制。以适应更大规模的训练迭代。

相关文章

  • 稀疏模型优化

    NN模型的特点:在NN方向,稀疏特征多由embeding以及后续的交叉表达来体现(靠模型结构,隐层进行表达)。其优...

  • Pytorch袖珍手册之十二

    第六章 Pytorch加速及优化(性能提升) 之三 模型优化 Model Optimization 优化模型以减小...

  • Pytorch袖珍手册之十三

    第六章 Pytorch加速及优化(性能提升) 之四 模型优化--量化 Quantization 模型量化属于模型压...

  • 【百面机器学习】优化算法

    机器学习算法 = 模型表征 + 模型评估 + 优化算法。不同的优化算法对应的模型表征和评估指标分别为线性分类模型和...

  • Bayesian Sparse Topical Coding 贝

    摘要:稀疏主题模型(STMs)主要通过在主题模型上添加稀疏先验或适当的正则化因子,广泛用于大规模学习语义丰富的短文...

  • 集成学习(4) - 超参数优化

    1. 参数和超参数 在上一节模型优化部分,我们对模型的优化都是对模型算法本身的改进,比如:岭回归对线性回归的优化在...

  • BigDL入门 (4)- 优化器Optimizer

    优化器是模型训练的主要承担者,当模型输出的数据通过损失函数得到梯度后,优化器根据相应的优化算法计算得到新的模型参数...

  • sklearn学习笔记——LAR 最小角回归

    Lasso回归模型,是常用线性回归的模型,当模型维度较高时,Lasso算法通过求解稀疏解对模型进行变量选择。Lar...

  • 稀疏矩阵计算心得

    在机器学习中,经常遇到稀疏向量,稀疏矩阵。如何高效处理这些稀疏对象,决定了一些模型能否在线落地应用。目前正在专攻这...

  • 性能优化03-内存优化

    性能优化03-内存优化 一、内存模型 Java内存模型:Java程序在运行时内存的模型。而Java代码是运行在Ja...

网友评论

    本文标题:稀疏模型优化

    本文链接:https://www.haomeiwen.com/subject/umuopktx.html