2018校招——机器学习问题汇总

作者: 缄默笔记 | 来源:发表于2017-10-19 11:00 被阅读0次

说明：问题主要来自牛客网面经。

LR 专题

1 讲一下逻辑回归，及优缺点

2 用代码写出LR的损失函数（目标函数），损失函数如何推导？

3 LR的优化方法及区别，梯度下降有哪几种

4 LR的思想 LR对输入和输出的分布假设

5 LR可以用来处理非线性问题么？怎么做？可以像SVM那样么？为什么？

6 LR模型为什么采用似然估计？

7 LR为什么要用对数似然，不用平方损失和绝对值之类？平方损失是不是凸函数？

8 线性回归和逻辑回归的不同？

输出：前者可以拟合数据，输出范围可以任意，后者主要是二分类，输出属于每类的概率，输出在0-1之间

9 比较lr和svm

10 softmax公式，编写函数计算softmax中的cross entropy loss

11 逻辑函数是啥

12 LR为什么要用logistic函数？该函数优缺点？为什么不用其他函数？

SVM专题

1 介绍svm

2 svm推导软间隔问题

3 原问题和对偶问题，关系？ KKT限制条件？为什么转化为对偶问题

4 为什么要除以||w||，为什么优化问题中间隔γ可以取1

5 核的概念，为什么用核函数？有哪些核函数？如何选择？

6 svm有哪几个比较大的特点？线性不可分怎么办

7 SVM 为什么引入拉格朗日优化方法

8 怎么去优化SVM算法模型？

9 SVM如何处理多类问题

10 能做回归么？怎么做？

11 svm和LR区别及对离群值的敏感度分析

12 svm LR gbdt rf的区别

13 svm与感知器的联系和优缺点比较

14 线性核高斯核哪个model更小？

15 SVM函数间隔、几何间隔是什么？

16 高斯核deta变大，整个模型是过拟合还是欠拟合

17 模型训练后，需要存储哪些参数

过拟合正则化专题

1 什么是过拟合，怎么判断是否过拟合

2 怎么减少或防止过拟合

3 什么是正则化 L1 L2范数区别是什么？各用在什么地方

4 ridge和lasso有什么区别？

5 L2范数为什么可以防止过拟合？ L1范数为什么权值稀疏？

6 概率论角度解释正则化

7 L1正则怎么处理0点不可导的情形？

8 L1和L2正则项，加哪个可以用核

集成学习专题

1 决策树算法？

2 什么是熵？信息熵公式

3 信息增益公式及意义？

4 决策树处理连续值的方法

5 如何判断决策树及随机森林过拟合

6 介绍决策树三种决策树区别和适应场景

7 说说决策树，决策树节点按照什么分裂，如何优化决策避免过拟合；

8 随机森林算法？优缺点？

9 随机森林损失函数？

10 随机森林怎么取最终结果（分类与回归不同）

11 随机森林怎么避免ID3算法增益的缺点

12 防止随机森林过拟合？为什么有放回采样？

13 了解Boosting么

14 gbdt树根据什么分裂？怎么并发？

15 你觉得为什么gbdt的boosting体现在哪里。

16 随机森林节点的分裂策略，以及它和gbdt做分类有什么区别？哪个效果更好些？为什么？哪个更容易过拟合？为什么？

17 介绍xgboost原理一下。写下xgboost目标函数。

18 讲讲xgboost怎么用以及常用参数

19 xgboost对特征缺失敏感吗，对缺失值做了什么操作? 哪些模型对特征缺失敏感，哪些不敏感

20 LR RF GBDT 损失函数解释

21 达到相似的预测结果，RF和GBDT哪个树深

22 Bagging和bosting、GBDT 区别

23 Adaboost 随机森林区别？

24 GBDT 随机森林区别

25 GDBT和XGBoost的区别

26 C4.5 ID3 优缺点

27 决策树如何防止过拟合

聚类专题

1 k-means两个关键点（初始类心、k的选择）？原理？优缺点？改进？

2 Em kmean 的关系

3 适用什么样数据集、怎么评价 Kmeans 聚类结果

4 其他聚类算法

5 k-means 聚类个数选择？

6 模糊k均值优点

7 Kmeans中，现在给你n个样本点不在欧式空间中，无法度量距离。现在给了一个函数F，可以衡量任意两个样本点的相似度。请问Kmeans如何操作？

最优化专题

1 梯度下降法，及其优缺点

2 梯度下降法的原理以及各个变种，这几个方法会不会有局部最优问题

3 讲下拟牛顿法

4 牛顿法原理和适用场景，有什么缺点，如何改进

5 说说牛顿法与梯度下降比较

其他

1 离散傅里叶变换公式

2 泰勒展开怎么写

3 监督学习与非监督学习区别

4 评价函数及标准，说说AUC曲线、PR曲线、准确率、召回率解释一下

5 特征降维

6 特征缺失，不用说求均值之类的填补方法，用LR、RF去预测缺失值，哪个好

7 不变动模型和参数，只对数据来说怎么减少过拟合

8 讲k-fold CrossValidation

10 有一百个数，随机选取数字让其均匀分成十份，不允许有一次碰撞

11 训练时要分为train、validation、test三部分，分成train、validation不就够了吗？

12 有没有做过特征工程

13 如何用尽量少的样本训练模型，同时保证性能

14 结合实际场景，解决海量图片中搜索相同图片和相似图片问题？实时转化为二值序列？

15 假设加了很多很多负例，auc和prc哪个对此不敏感

16 一枚硬币，扔10次，4次正面朝上，求它的最大似然估计

17 数据类别不均衡的处理方法

18 评价指标宏平均和微平均

19 输入层特征归一化？为什么？

1 L0、L1、L2范式，他们的作用

2 KNN算法如何决定k值？ k对偏差方差的影响？

3 Boost算法，手写adaboost流程，主要计算误差、分类器系数、权值更新

4 各种分类算法适合场景，优缺点？

5 线性回归的损失函数

6 讲讲机器学习中常用的损失函数有哪些？交叉熵有什么好处？

7 朴素贝叶斯，先验、似然和后验分别是什么

网友评论

本文标题：2018校招——机器学习问题汇总

本文链接：https://www.haomeiwen.com/subject/etkuuxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2018校招——机器学习问题汇总

LR 专题

SVM专题

过拟合正则化专题

集成学习专题

聚类专题

最优化专题

其他

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

2018校招——机器学习问题汇总

LR 专题

SVM专题

过拟合 正则化专题

集成学习专题

聚类专题

最优化专题

其他

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

过拟合正则化专题