美文网首页
数据挖掘3

数据挖掘3

作者: 一技破万法 | 来源:发表于2020-03-31 21:11 被阅读0次

建模调参

内容介绍

  1. 线性回归模型:
    线性回归对于特征的要求;
    处理长尾分布;
    理解线性回归模型;
  2. 模型性能验证:
    评价函数与目标函数;
    交叉验证方法;
    留一验证方法;
    针对时间序列问题的验证;
    绘制学习率曲线;
    绘制验证曲线;
  3. 嵌入式特征选择:
    Lasso回归;
    Ridge回归;
    决策树;
  4. 模型对比:
    常用线性模型;
    常用非线性模型;
    5.模型调参:
    贪心调参方法;
    网格调参方法;
    贝叶斯调参方法

算法原理

线性回归模型

线性回归模型

决策树模型

决策树模型

GBDT模型

GBDT模型

XGBoost 模型

线性回归&五折交叉验证&模拟真实业务情况

五折交叉验证

把数据集中一部分对训练集生成的参数进行测试,相对客观的判断这些参数对训练集之外的数据的符合程度。

正则化模型

L2正则化在拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是『抗扰动能力强』
L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。

模型调参
  • 贪心算法:在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的仅是在某种意义上的局部最优解。
    贪心算法没有固定的算法框架,算法设计的关键是贪心策略的选择。必须注意的是,贪心算法不是对所有问题都能得到整体最优解,选择的贪心策略必须具备无后效性,即某个状态以后的过程不会影响以前的状态,只与当前状态有关。
    所以对所采用的贪心策略一定要仔细分析其是否满足无后效性。
  • 网格调参:通过循环遍历参数的设置,尝试每一种参数的组合,返回最好的得分值的参数分支。
  • 贝叶斯调参:贝叶斯优化通过基于目标函数的过去评估结果建立替代函数(概率模型),来找到最小化目标函数的值。贝叶斯方法与随机或网格搜索的不同之处在于,它在尝试下一组超参数时,会参考之前的评估结果,因此可以省去很多无用功。

相关文章

  • 数据挖掘3

    建模调参 内容介绍 线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型; 模型性能验证:评价函数...

  • 数据挖掘

    数据挖掘是机器学习的前身,标准的数据分析与挖掘流程分为6部分,与数据挖掘紧密相关有3部分:数据整理、构建模型和模型...

  • [转]Spark购物篮分析:关联规则挖掘

    1、浅谈数据挖掘中的关联规则挖掘 2、Hadoop/MapReduce购物篮分析:关联规则挖掘 3、Spark购物...

  • 3 流数据挖掘

    1、流数据挖掘课程中介绍了几个主要的功能:1)抽样,2)过滤 3)计数1)抽样:对于大量的数据进行抽样,如果抽取固...

  • 时空数据挖掘

    数据挖掘已经成为当代显学,只要是个公司可能都需要数据挖掘,由此也衍生除了金融数据挖掘、生物数据挖掘、时空数据挖掘、...

  • 数据挖掘那些事

    当我们在谈数据挖掘时,其实在讨论什么 统计学、数据挖掘与机器学习是近年来经常一起出现的3个词语,尤其是数据挖掘与机...

  • 一篇非常棒的安装Python及爬虫入门博文!

    一. 大数据及数据挖掘基础 第一部分主要简单介绍三个问题: 1、什么是大数据? 2、什么是数据挖掘? 3、大数据和...

  • 学习笔记--(移动数据挖掘引言)

    移动数据挖掘的定义 移动数据挖掘研究的是基于移动数据的数据挖掘算法。这些数据算法需要更多地利用移动数据特性,挖掘与...

  • 数据总监要求

    工作职责: 1、大数据 机器学习平台 2、数据采集 数据治理 数据安全 数据仓库 数据应用 算法应用 3、挖掘数据...

  • 大数据、数据分析和数据挖掘的区别

    大数据、数据分析、数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘...

网友评论

      本文标题:数据挖掘3

      本文链接:https://www.haomeiwen.com/subject/dvnguhtx.html