美文网首页
瓶颈分析 -- 从样本到训练流程优化

瓶颈分析 -- 从样本到训练流程优化

作者: 活着活法 | 来源:发表于2016-12-26 11:57 被阅读0次

    训练模型优化方案:

    时间瓶颈分析:

    流程
    相同打分-》抽样-》离散化 -》样本转labeledPoint -》lr train --》特征有效性分析

    场景:
    每人目录下有多个模型,只有 正则化参数不同

    当前方案:
    参数不同,重跑 整个流程 相同打分-》抽样-》离散化 -》样本转labeledPoint -》lr train --》特征有效性分析

    优化方案:
    只是模型训练的参数不同,可以在模型中添加initweight,整个流程:耗时144分钟,优化后,只需要6分钟,只需4%的时间,即时间效率提升24倍。

    Paste_Image.png

    空间瓶颈分析:

    流程:相同打分-》抽样-》离散化 -》样本转labeledPoint -》lr train --》特征有效性分析

    场景:每人目录下有多个模型,只有 正则化参数不同

    优化方案:打分、抽样、离散化、样本转labeledPoint 这些数据都可以共用。仅仅参数不同,只需要1/10的空间。即空间效率提升10倍。

    Paste_Image.png

    评估:

    “参数不同”的场景占比多少?假如占比为ratio,则优化后为 空间消耗总量* ratio*0.1

    举例:

    我的空间消耗15T ,“参数不同”的场景占1/3,即 此场景为5T,优化后,只需要0.5T,即500G。节省30%左右。

    相关文章

      网友评论

          本文标题:瓶颈分析 -- 从样本到训练流程优化

          本文链接:https://www.haomeiwen.com/subject/iljjvttx.html