面试题：过拟合原因

作者: bd7e4a65be2b | 来源:发表于2022-04-18 22:05 被阅读0次

面试题：过拟合原因
14-过拟合和欠拟合
防止过拟合的基本方法
过拟合
过拟合原因和方法
正则化
20200227-Model
机器学习的相关概念
数据开发笔试面试问题集锦
第三天-过拟合欠拟合及其解决方案,梯度消失梯度爆炸,

更多面试题关注"百面机器学习"有劳动下手指啦

-------------------------------------------------

（1）建模样本选取有误，样本标签错误等，导致选取的样本数据不足以代表预定的分类规则

（2）样本噪音干扰过大，使得机器将学习了噪音，还认为是特征，从而扰乱了预设的分类规则

（3）假设的模型无法合理存在，或者说是假设成立的条件实际并不成立

（4）参数太多，模型复杂度过高

（5）对于tree-based模型，如果我们对于其深度与split没有合理的限制，有可能使节点只包含单纯的事件数据(event)或非事件数据(no event)，使其虽然可以完美匹配（拟合）训练数据，但是无法适应其他数据集

（6）对于神经网络模型：1.权值学习迭代次数太多(Overtraining)，2。BP算法使权值可能收敛过于复杂的决策面

喜欢就关注一下啦~~~

更多面试题----------------------

基础概念

逻辑回归与朴素贝叶斯有什么区别

机器学习学习方式主要有哪些？

监督学习的步骤主要有哪些?

逻辑回归与朴素贝叶斯有什么区别

线性回归和逻辑回归的区别

代价函数，损失函数和目标函数的区别？

随机梯度下降法、批量梯度下降法有哪些区别？

LDA和PCA区别？

降维的必要性和目的是什么？

误差、偏差和方差的区别是啥？

梯度下降法缺点

批量梯度下降和随机梯度下降法的缺点？

如何对梯度下降法进行调优?

如何解决欠拟合

过拟合原因

如何解决过拟合

GBM

简单介绍一下XGBoost

XGBoost与GBDT的联系和区别有哪些？

为什么XGBoost泰勒二阶展开后效果就比较好呢？

XGBoost对缺失值是怎么处理的？

XGBoost为什么快

XGBoost防止过拟合的方法

XGBoost为什么若模型决策树的叶子节点值越大，越容易过拟合呢？

XGBoost为什么可以并行训练？

XGBoost中叶子结点的权重如何计算出来

XGBoost中的一棵树的停止生长条件

Xboost中的min_child_weight是什么意思

Xgboost中的gamma是什么意思

Xgboost中的参数

RF和GBDT的区别

xgboost本质上是树模型，能进行线性回归拟合么

Xgboos是如何调参的

为什么xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度？

为什么常规的gbdt和xgboost不适用于类别特别多的特征?

怎么处理类别特征在树模型下？

集成学习方法

bagging和boosting区别

为什么bagging减少方差

什么场景下采用bagging集成方法

bagging和dropout区别

为什么说bagging是减少variance，而boosting是减少bias?

adaboost为什么不容易过拟合？

组合弱学习器的算法？

DL

基础理论

说一下局部最优与全局最优的区别？

深度学习里，如何判断模型陷入局部最优？

Transfomer

Transformer为何使用多头注意力机制？

Transformer 相比于 RNN/LSTM，有什么优势？为什么

Transformer为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？

Transformer计算attention的时候为何选择点乘而不是加法？两者计算复杂度和效果上有什么区别？

为什么在进行softmax之前需要对attention进行scaled

说一下在计算attention score的时候如何对padding做mask操作？

为什么在进行多头注意力的时候需要对每个head进行降维？

大概讲一下Transformer的Encoder模块？

简单介绍一下Transformer的位置编码？有什么意义和优缺点？

你还了解哪些关于位置编码的技术，各自的优缺点是什么？

简单讲一下Transformer中的残差结构以及意义。

为什么transformer块使用LayerNorm而不是BatchNorm？LayerNorm 在Transformer的位置是哪里？

简答讲一下BatchNorm技术，以及它的优缺点。

简单描述一下Transformer中的前馈神经网络？使用了什么激活函数？相关优缺点？

Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别？

Transformer的并行化提现在哪个地方？

Decoder端可以做并行化吗？

简单描述一下wordpiece model 和 byte pair encoding，有实际应用过吗？

Transformer训练的时候学习率是如何设定的？Dropout是如何设定的，位置在哪里？Dropout 在测试的需要有什么需要注意的吗？

bert的mask为何不学习transformer在attention处进行屏蔽score的技巧？

网友评论

本文标题：面试题：过拟合原因

本文链接：https://www.haomeiwen.com/subject/ebdjertx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

面试题：过拟合原因

相关文章