美文网首页
2019-01-15 赛用特征工程总结

2019-01-15 赛用特征工程总结

作者: 吟巧 | 来源:发表于2019-01-15 22:43 被阅读0次

    #多看赛经,还有决赛答辩。

    #参与练习赛

    #EDA数据可视化探索

    EDA最大的作用是发现一些异常数据,并可以重新赋值。

    其次是得到一些启发。这个启发很微妙因为并不知道会得到什么启发。

    #关于解决过拟合

    1不要轻易对A榜提交csv做集成。不要玩火。

    2 这个世界是存在一些特征工程,通过转换差分target的方法,来增加数据来解决过拟合的。

    3 不要迷信调参。大部分调参是无用的,少部分提升一点点的成绩。关注数据和特征更加重要。手动调参和自动调参本质上没有区别。

    4 大部分情况下,正则化都有用。

    #如果某次比赛没有拿到好名次。不一定是你的实力问题,还有可能是运气问题。但是只要是比赛,细节性的东西一定要注意。你越细心,运气越好。

    赛经搜集

    #https://zhuanlan.zhihu.com/p/43691981

    该文主要是以下观点

    把数据转换成图像

        原始数据转换成图像,并把前n位像素作为特征。这是Kaggle竞赛中出现的令人惊叹的特征工程之一。

    Meta-leaks

      能发现数据泄漏的情况,代表数据探索分析做的好

    表征学习特征

    均值编码

    转换目标变量

        改变目标变量分布 log(1+目标)和  转回 predictions = np.exmp1(log_predictions)。

    #https://jizhi.im/blog/post/kaggle_silver

    git 上有ppt

    四则运算 时间段特征

    地理位置特征

      聚类

    文本特征

    稀疏型特征

    稀疏型特征

    相关文章

      网友评论

          本文标题:2019-01-15 赛用特征工程总结

          本文链接:https://www.haomeiwen.com/subject/dikudqtx.html