美文网首页
2018校招——机器学习问题汇总

2018校招——机器学习问题汇总

作者: 缄默笔记 | 来源:发表于2017-10-19 11:00 被阅读0次

    说明:问题主要来自牛客网面经。

    LR 专题

    1 讲一下逻辑回归,及优缺点

    2 用代码写出LR的损失函数(目标函数),损失函数如何推导?

    3 LR的优化方法及区别,梯度下降有哪几种

    4 LR的思想 LR对输入和输出的分布假设

    5 LR可以用来处理非线性问题么? 怎么做? 可以像SVM那样么? 为什么?

    6 LR模型为什么采用似然估计?

    7 LR为什么要用对数似然,不用平方损失和绝对值之类?平方损失是不是凸函数?

    8 线性回归和逻辑回归的不同?

    输出:前者可以拟合数据,输出范围可以任意,后者主要是二分类,输出属于每类的概率,输出在0-1之间

    9 比较lr和svm

    10 softmax公式,编写函数计算softmax中的cross entropy loss

    11 逻辑函数是啥

    12 LR为什么要用logistic函数? 该函数优缺点?为什么不用其他函数?

    SVM专题

    1 介绍svm

    2 svm推导 软间隔问题

    3 原问题和对偶问题,关系? KKT限制条件? 为什么转化为对偶问题

    4 为什么要除以||w||,为什么优化问题中间隔γ可以取1

    5 核的概念,为什么用核函数? 有哪些核函数?如何选择?

    6 svm有哪几个比较大的特点? 线性不可分怎么办

    7 SVM 为什么引入拉格朗日优化方法

    8 怎么去优化SVM算法模型?

    9 SVM如何处理多类问题

    10 能做回归么? 怎么做?

    11 svm和LR区别 及对离群值的敏感度分析

    12 svm LR gbdt rf的区别

    13 svm与感知器的联系和优缺点比较

    14 线性核 高斯核哪个model更小?

    15 SVM函数间隔、几何间隔是什么?

    16 高斯核deta变大,整个模型是过拟合还是欠拟合

    17 模型训练后,需要存储哪些参数

    过拟合 正则化专题

    1 什么是过拟合,怎么判断是否过拟合

    2 怎么减少或防止过拟合

    3 什么是正则化 L1 L2范数区别是什么? 各用在什么地方

    4 ridge和lasso有什么区别?

    5 L2范数为什么可以防止过拟合? L1范数为什么权值稀疏?

    6 概率论角度解释正则化

    7 L1正则怎么处理0点不可导的情形?

    8 L1和L2正则项,加哪个可以用核

    集成学习专题

    1 决策树算法?

    2 什么是熵? 信息熵公式

    3 信息增益公式及意义?

    4 决策树处理连续值的方法

    5 如何判断决策树及随机森林过拟合

    6 介绍决策树 三种决策树区别和适应场景

    7 说说决策树,决策树节点按照什么分裂,如何优化决策避免过拟合;

    8 随机森林算法?优缺点?

    9 随机森林损失函数?

    10 随机森林怎么取最终结果 (分类与回归不同)

    11 随机森林怎么避免ID3算法增益的缺点

    12 防止随机森林过拟合? 为什么有放回采样?

    13 了解Boosting么

    14 gbdt树根据什么分裂? 怎么并发?

    15 你觉得为什么gbdt的boosting体现在哪里。

    16 随机森林节点的分裂策略,以及它和gbdt做分类有什么区别?哪个效果更好些?为什么?哪个更容易过拟合?为什么?

    17 介绍xgboost原理一下。写下xgboost目标函数。

    18 讲讲xgboost怎么用以及常用参数

    19 xgboost对特征缺失敏感吗,对缺失值做了什么操作? 哪些模型对特征缺失敏感,哪些不敏感

    20 LR RF GBDT 损失函数解释

    21 达到相似的预测结果,RF和GBDT哪个树深

    22 Bagging和bosting、GBDT 区别

    23 Adaboost 随机森林区别?

    24 GBDT 随机森林区别

    25 GDBT和XGBoost的区别

    26 C4.5 ID3 优缺点

    27 决策树如何防止过拟合

    聚类专题

    1 k-means两个关键点(初始类心、k的选择)?原理?优缺点? 改进?

    2 Em kmean 的关系

    3 适用什么样数据集、怎么评价 Kmeans 聚类结果

    4 其他聚类算法

    5 k-means 聚类个数选择?

    6 模糊k均值优点

    7 Kmeans中,现在给你n个样本点不在欧式空间中,无法度量距离。现在给了一个函数F,可以衡量任意两个样本点的相似度。请问Kmeans如何操作?

    最优化专题

    1 梯度下降法,及其优缺点

    2 梯度下降法的原理以及各个变种,这几个方法会不会有局部最优问题

    3 讲下拟牛顿法

    4 牛顿法原理和适用场景,有什么缺点,如何改进

    5 说说牛顿法与梯度下降比较

    其他

    1 离散傅里叶变换公式

    2 泰勒展开怎么写

    3 监督学习与非监督学习区别

    4 评价函数及标准,说说AUC曲线、PR曲线、准确率、召回率解释一下

    5 特征降维

    6 特征缺失,不用说求均值之类的填补方法,用LR、RF去预测缺失值,哪个好

    7 不变动模型和参数,只对数据来说怎么减少过拟合

    8 讲k-fold CrossValidation

    10 有一百个数,随机选取数字让其均匀分成十份,不允许有一次碰撞

    11 训练时要分为train、validation、test三部分,分成train、validation不就够了吗?

    12 有没有做过特征工程

    13 如何用尽量少的样本训练模型,同时保证性能

    14 结合实际场景,解决海量图片中搜索相同图片和相似图片问题? 实时 转化为二值序列?

    15 假设加了很多很多负例,auc和prc哪个对此不敏感

    16 一枚硬币,扔10次,4次正面朝上,求它的最大似然估计

    17 数据类别不均衡的处理方法

    18 评价指标宏平均和微平均

    19 输入层特征归一化? 为什么?

    1 L0、L1、L2范式,他们的作用

    2 KNN算法如何决定k值? k对偏差方差的影响?

    3 Boost算法,手写adaboost流程,主要计算误差、分类器系数、权值更新

    4 各种分类算法适合场景,优缺点?

    5 线性回归的损失函数

    6 讲讲机器学习中常用的损失函数有哪些?交叉熵有什么好处?

    7 朴素贝叶斯,先验、似然和后验分别是什么

    相关文章

      网友评论

          本文标题:2018校招——机器学习问题汇总

          本文链接:https://www.haomeiwen.com/subject/etkuuxtx.html