美文网首页
数据挖掘与分析基础概念

数据挖掘与分析基础概念

作者: 噗嗤噗哩噗通 | 来源:发表于2019-06-26 21:04 被阅读0次

    前言:
    工作中发现工程化的时候越多,对一些指标的概念越模糊,所以写一篇大纲,主要是为了把学习,运用过的知识体系化。(临时抱佛脚用)


    1. 特征工程:

    大体框架主要分为:

    • 特征构造:这里可以增加业务逻辑叠加,也可以借用多层神经网络达到特征组合的效果。
    • 特征效果验证(有值率)
    • 特征类型分析
    • 缺失值补充:按照高斯分布或者其他分布补充数据,knn数据填充。
    • 单因素方差分析
    • 多元正态检验

    特征变化情况分析

    • 平均绝对误差
    • 均方差
    • 标准化平均绝对方差

    模型优化

    1. 调整参数:

    python:hyperopt和pymongo
    speatmint(高斯迭代)
    smac(随机森林回归)

    • 网格搜索
    • 随机搜索
    • 贝叶斯优化

    2. 图像处理:

    seaborn,pyecharts

    2. 交叉检验

    5折交叉检验,主要是判断模型稳定性。

    3. 异常检测

    用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户

    集成学习

    • 用于减少方差的bagging:重采样方法,结果聚合阶段(分类采用投票模式,回归采用均值模式):并行
    • 用于减少偏差的boosting:boosting和bagging的区别在于是对加权后的数据利用弱分类器依次进行训练。AdaBoost(串型)
    • 用于提升预测结果的stacking:前一个模型的输入作为后一个模型的输出

    adaboost

    batch-boost

    相关文章

      网友评论

          本文标题:数据挖掘与分析基础概念

          本文链接:https://www.haomeiwen.com/subject/huwhcctx.html