美文网首页
和DH大神交流总结

和DH大神交流总结

作者: 喵_十八 | 来源:发表于2018-06-13 21:18 被阅读0次

归档至github

交流目的及解答

反馈现在遇到的问题

获得解答

确定后续的技术路线,借助DT的经验来确定选型是否合适

之前定的方案是合适的,但是细节上需要进一步明确。

得出能够落实的方案(理论依据 + 实现可能)

  • 向业务请教现有有效规则经验,抽象化为特征
  • 积累数据
  • 模型迁移尝试
  • 构建稀疏特征,第一步尝试使用MLR等传统模型处理,第二步采用多层神经网络(是否激进一些,直接使用神经网络???)

交流内容点

异常值处理

问题

  • 是否进行异常值处理?
  • 使用哪些异常处理的方式会更为合适?

解答

  • 尽量使用尊重数据本身,不要做异常值处理

特征构建及选择

问题

  • 如何进行分段(离散化、分箱) ?
  • 是否做哑变量处理?
  • 如何进行选择(高度线性相关、近零方差、逐步迭代回归)?
  • 扩展维度编码(是否一起编码) 做成插件形式?

解答

  • 通过业务的先验知识,增加强相关的特征
  • 通过比较粗暴的方式,获取全量的特征(比如每个时间段的点击),然后通过多层神经网络(中间层加入特征选取的功能)进行筛选和预测
  • 通过高次特征组合的方式,来扩展特征
  • 尽量使用端到端的方式,进行特征选取
  • case1 人 品牌 交互行为 时间 ,以这个四个张量维度,作为基础,分别计算各个维度可能扩展出来的特征,从而扩展出数百个强关联的特征。例如人的年龄、性别。 品牌的价位,点击情况等等。
  • 总结:尽可能多的选取特征,交给模型去筛选(注:为避免高阶特征可能出现的共线性问题,尽量选取抗共线性模型)

稀疏矩阵处理

问题

  • 采用神经网络:技术选型 线下Keras 线上DL4J
  • 采用GBDT + LR
  • 采用XGBoost

解答

  • 第一步可以使用MLR,GBM,XGBoost等
  • 后续,构建多层神经网络(层之间,增加不同的特征处理手段)
  • 采用流式学习的模型,可以考虑进行增量学习
  • 调优经验:一方面是根据已有的经验(树的深度,分叉等等)进行调参,另一方面是通过grid search 搜索

数据非平衡 & 数据提纯问题

解答

  • 尽量尊重样本本身,不要对样本做过多的处理
  • case1 文本问题,4万样本,百万级别特征
  • case2 图像问题,3万样本
  • case3 CTR 问题,4亿样本,亿级别特征,正负样本1:80

关于推荐算法

解答

  • 可以尝试
  • 无监督学习一般来说,难以超越有监督学习

关于模型迁移

解答

  • 相似类型业务的模型,可以迁移使用

相关文章

  • 和DH大神交流总结

    归档至github 交流目的及解答 反馈现在遇到的问题 获得解答 确定后续的技术路线,借助DT的经验来确定选型是否...

  • python 金融网贷数据,pandas进行数据分析并可视化系列

    感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升。 因为半桶子水的水平,一直在想写...

  • 偷思总结

    9.28晚上听课的时候自己许下了第一步行动:打电话骚扰几位大神,交流自己的问题,寻找大神的经验,将大神的经验总结携...

  • 这辈子就当个花匠

    一、发芽和失恋 “嗨,doctor hoo 。” “嗨,DH 同学,好久不见。” doctor回过头,哦, DH ...

  • DH690船舶及海洋工程用结构钢

    DH690船舶及海洋工程用结构钢 一、DH690钢板简介: DH690是制造远洋、沿海和内河航区航行船舶、渔船及海...

  • 海棠花摄影

    今天发两张海棠花的照片 欢迎喜欢摄影的朋友相互交流 VX j1989dh

  • 产品方法论——用户研究(以用户为中心)

    做产品工作4年多了,根据自己的经验和学习到的产品大神的一些方法论进行总结再输出,与各位产品同学交流。 大家都知道,...

  • 健身路上

    我不是什么牛人大V,只是一名热爱健身的普通大学生。通过教练和大神的交流,和自己的反思与总结,分享半年来的一些健身心...

  • Dh

    Gb

  • DH

    DH 算法的介绍 上面介绍的 DES,3DES,AES 算法都是对称密码算法,所谓对称,在上面也解释了,就是加密和...

网友评论

      本文标题:和DH大神交流总结

      本文链接:https://www.haomeiwen.com/subject/ukpseftx.html