美文网首页
数据挖掘与分析基础概念

数据挖掘与分析基础概念

作者: 噗嗤噗哩噗通 | 来源:发表于2019-06-26 21:04 被阅读0次

前言:
工作中发现工程化的时候越多,对一些指标的概念越模糊,所以写一篇大纲,主要是为了把学习,运用过的知识体系化。(临时抱佛脚用)


1. 特征工程:

大体框架主要分为:

  • 特征构造:这里可以增加业务逻辑叠加,也可以借用多层神经网络达到特征组合的效果。
  • 特征效果验证(有值率)
  • 特征类型分析
  • 缺失值补充:按照高斯分布或者其他分布补充数据,knn数据填充。
  • 单因素方差分析
  • 多元正态检验

特征变化情况分析

  • 平均绝对误差
  • 均方差
  • 标准化平均绝对方差

模型优化

1. 调整参数:

python:hyperopt和pymongo
speatmint(高斯迭代)
smac(随机森林回归)

  • 网格搜索
  • 随机搜索
  • 贝叶斯优化

2. 图像处理:

seaborn,pyecharts

2. 交叉检验

5折交叉检验,主要是判断模型稳定性。

3. 异常检测

用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户

集成学习

  • 用于减少方差的bagging:重采样方法,结果聚合阶段(分类采用投票模式,回归采用均值模式):并行
  • 用于减少偏差的boosting:boosting和bagging的区别在于是对加权后的数据利用弱分类器依次进行训练。AdaBoost(串型)
  • 用于提升预测结果的stacking:前一个模型的输入作为后一个模型的输出

adaboost

batch-boost

相关文章

网友评论

      本文标题:数据挖掘与分析基础概念

      本文链接:https://www.haomeiwen.com/subject/huwhcctx.html