美文网首页
2019-03-10记忆学习:一个case

2019-03-10记忆学习:一个case

作者: fulihao | 来源:发表于2019-03-10 16:36 被阅读0次

    记忆学习整体流程

    • 数据EDA
    • 特征工程
    • 模型建立,调参CV
    • 模型融合(Ensembling)

    都是基于特征集的,不关于预测集

    描述性统计及相关性分析

    1. 缺失值info()查看空值/类型
      drop NA
      但是缺失也是信息
      缺失值的填补:例如中值,条件样本均值,联合分布……
    2. describe()
    3. 相关性分析
    4. 数据可视化
      (1)for循环
      (2)apply/.map apply一般对行或者一列进行输入,map是对每一个格进行操作
      train['age'].map(str)

    特征工程

    CV交叉验证:训练集,测试集。K-fold
    5-折:把训练集划分为5份,用1-4训练,预测5,和真实比较,用2-5训练预测1……做5次,评估模型的精度
    模型的泛化能力:通过学习更好地预测不知道的东西

    模型融合

    单模→融合→复模

    • bagging
      随机分离,思想:三个臭皮匠
      投票法voting 100个变量,建立100个决策树(分类器),70个认为会活
      概率,一个分类器认为30%会活,一个认为70%,算概率大于50%就活
      阈值学习
    • boosting(主流,GBDT提升数)
      从前一个分类器的失败里学习,在错误里改进
    • stacking
      把预测的结果当新的特征
      用1234训练,clf,预测5,clf1_pre_5……得到5个分类器clf1,2,3,4,5.同时用这五个分类器预测测试集,作为新增的特征

    不平衡问题

    99个人是好人,一个罪犯
    分类器更倾向于它是一个好人,但是目标是检索出坏人
    处理方式:过采样,欠采样(取多组,bagging)
    enbalanced:smoote

    相关文章

      网友评论

          本文标题:2019-03-10记忆学习:一个case

          本文链接:https://www.haomeiwen.com/subject/dnwupqtx.html