美文网首页
面试题:如何解决欠拟合

面试题:如何解决欠拟合

作者: bd7e4a65be2b | 来源:发表于2022-04-18 22:03 被阅读0次

更多面试题关注"机器学习算法面试"有劳动下手指啦

-------------------------------------------------

问题背景

在优化的世界里,总避免不了的接触全局最优和局部最优的概念,那么这两者的区别是什么呢?

问题解答

全局最优:针对一定条件/环境下的一个问题/目标,若一项决策和所有解决该问题的决策相比较是最优的,就可以被称为“全局最优”;

局部最优:针对一定条件/环境下的一个问题/目标,若一项决策和部分解决该问题的决策相比较是最优的,就可以被称为“局部最优”

既然有全局最优,为什么还需要有局部最优呢?

事实是这样子的,对于优化问题,尤其是最优化问题,总是希望能找到全局最优的解决策略,但是当问题的复杂度过于高,要考虑的因素和处理的信息量过多的时候,我们往往会倾向于接受局部最优解,因为局部最优解的质量不一定最差的。尤其是当我们有确定的评判标准标明得出的解释可以接受的话,通常会接受局部最优的结果。这样,从成本、效率等多方面考虑,才是实际工程中会才去的策略。

说白了,就是没那么多时间和精力去算出全局最优的结果来,用一个差不多的结果就可以啦,最起码工程上是这么搞的。

参考

[1] https://www.jianshu.com/p/10f58aa6ada1

[2] https://zhuanlan.zhihu.com/p/295436104

喜欢就关注一下啦~~~

更多面试题----------------------

基础概念

逻辑回归与朴素贝叶斯有什么区别

机器学习学习方式主要有哪些?

监督学习的步骤主要有哪些?

逻辑回归与朴素贝叶斯有什么区别

线性回归和逻辑回归的区别

代价函数,损失函数和目标函数的区别?

随机梯度下降法、批量梯度下降法有哪些区别?

LDA和PCA区别?

降维的必要性和目的是什么?

误差、偏差和方差的区别是啥?

梯度下降法缺点

批量梯度下降和随机梯度下降法的缺点?

如何对梯度下降法进行调优?

如何解决欠拟合

过拟合原因

如何解决过拟合

GBM

简单介绍一下XGBoost

XGBoost与GBDT的联系和区别有哪些?

为什么XGBoost泰勒二阶展开后效果就比较好呢?

XGBoost对缺失值是怎么处理的?

XGBoost为什么快

XGBoost防止过拟合的方法

XGBoost为什么若模型决策树的叶子节点值越大,越容易过拟合呢?

XGBoost为什么可以并行训练?

XGBoost中叶子结点的权重如何计算出来

XGBoost中的一棵树的停止生长条件

Xboost中的min_child_weight是什么意思

Xgboost中的gamma是什么意思

Xgboost中的参数

RF和GBDT的区别

xgboost本质上是树模型,能进行线性回归拟合么

Xgboos是如何调参的

为什么xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度?

为什么常规的gbdt和xgboost不适用于类别特别多的特征?

怎么处理类别特征在树模型下?

集成学习方法

bagging和boosting区别

为什么bagging减少方差

什么场景下采用bagging集成方法

bagging和dropout区别

为什么说bagging是减少variance,而boosting是减少bias?

adaboost为什么不容易过拟合?

组合弱学习器的算法?

DL

基础理论

说一下局部最优与全局最优的区别?

深度学习里,如何判断模型陷入局部最优?

Transfomer

Transformer为何使用多头注意力机制?

Transformer 相比于 RNN/LSTM,有什么优势?为什么

Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?

Transformer计算attention的时候为何选择点乘而不是加法?两者计算复杂度和效果上有什么区别?

为什么在进行softmax之前需要对attention进行scaled

说一下在计算attention score的时候如何对padding做mask操作?

为什么在进行多头注意力的时候需要对每个head进行降维?

大概讲一下Transformer的Encoder模块?

简单介绍一下Transformer的位置编码?有什么意义和优缺点?

你还了解哪些关于位置编码的技术,各自的优缺点是什么?

简单讲一下Transformer中的残差结构以及意义。

为什么transformer块使用LayerNorm而不是BatchNorm?LayerNorm 在Transformer的位置是哪里?

简答讲一下BatchNorm技术,以及它的优缺点。

简单描述一下Transformer中的前馈神经网络?使用了什么激活函数?相关优缺点?

Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?

Transformer的并行化提现在哪个地方?

Decoder端可以做并行化吗?

简单描述一下wordpiece model 和 byte pair encoding,有实际应用过吗?

Transformer训练的时候学习率是如何设定的?Dropout是如何设定的,位置在哪里?Dropout 在测试的需要有什么需要注意的吗?

bert的mask为何不学习transformer在attention处进行屏蔽score的技巧?

相关文章

  • task03

    过拟合、欠拟合及其解决方案 过拟合与欠拟合 欠拟合 过拟合 解决方案 权重衰减 L2 范数正则化 范数正则化在模型...

  • 第三天-过拟合欠拟合及其解决方案,梯度消失梯度爆炸,

    过拟合、欠拟合及其解决方案 过拟合、欠拟合的概念 权重衰减 丢弃法 模型选择、过拟合和欠拟合 训练误差和泛化误差 ...

  • 过拟合、欠拟合及其解决方案 2020-02-18

    过拟合、欠拟合及其解决方案 过拟合、欠拟合的概念 权重衰减 丢弃法 模型选择、过拟合和欠拟合 训练误差和泛化误差 ...

  • 动手学深度学习(四) 过拟合欠拟合及其解决方案

    过拟合、欠拟合及其解决方案 过拟合、欠拟合的概念 权重衰减 丢弃法 模型选择、过拟合和欠拟合 训练误差和泛化误差 ...

  • 2020-02-19

    过拟合、欠拟合及其解决方案 过拟合、欠拟合的概念 权重衰减 丢弃法 模型选择、过拟合和欠拟合 训练误差和泛化误差 ...

  • 机器学习基础:过拟合、欠拟合、梯度消失与爆炸相关

    过拟合、欠拟合及其解决方案 过拟合、欠拟合的概念 权重衰减 丢弃法 模型选择、过拟合和欠拟合 训练误差和泛化误差 ...

  • 过拟合、欠拟合

    过拟合、欠拟合及其解决方案 过拟合、欠拟合的概念 权重衰减 丢弃法 模型选择、过拟合和欠拟合 训练误差和泛化误差 ...

  • 2020-02-14

    过拟合、欠拟合及其解决方案 过拟合、欠拟合的概念 权重衰减 丢弃法 模型选择、过拟合和欠拟合 训练误差和泛化误差 ...

  • 动手学深度学习-02打卡

    过拟合、欠拟合及其解决方案 1.过拟合、欠拟合的概念2.权重衰减3.丢弃法 模型选择、过拟合和欠拟合 训练误差和泛...

  • 面试题:如何解决欠拟合

    更多面试题关注"机器学习算法面试"有劳动下手指啦 --------------------------------...

网友评论

      本文标题:面试题:如何解决欠拟合

      本文链接:https://www.haomeiwen.com/subject/gydjertx.html