面试题目总结

作者: 安于此生__ | 来源:发表于2017-05-22 15:32 被阅读0次

阿里机器学习面试的一些题目，

1.说一下KNN的过程（刚开始的时候和k-means搞混了。。。）

KNN是k nearest neighbor 的简称，即k最邻近，就是找k个最近的实例投票决定新实例的类标。KNN是一种基于实例的学习算法，它不同于贝叶斯、决策树等算法，KNN不需要训练，当有新的实例出现时，直接在训练数据集中找k个最近的实例，把这个新的实例分配给这k个训练实例中实例数最多类。KNN也称为懒惰学习，它不需要训练过程，在类标边界比较整齐的情况下分类的准确率很高。KNN算法需要人为决定K的取值，即找几个最近的实例，k值不同，分类结果的结果也会不同。

2. ID3 C4.5 CART根据什么选择特征

ID3根据信息增益选择特征。C4.5根据信息增益率。CART根据基尼指数

参考链接：决策树（ID3、C4.5、CART）

3. 朴素贝叶斯的假设是什么？

所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。

4. 如果某个特征在训练集出现，测试集没出现没出现，概率计算出来是0，怎么解决？

某特征在训练集中未出现，避免概率计算为0，引入laplace平滑方法

5. SVM软间隔目标函数，及对偶函数的形式

当数据近似线性可分时，通过软间隔最大化学习一个线性分类器，即线性支持向量机；当数据线性不可分时，通过核技巧及软间隔最大化学习非线性支持向量机。

目标函数变为：

求min

其中C称为惩罚参数，且C>0。在线性支持向量机中加入了惩罚项。

利用拉格朗日函数的对偶性，将问题变成一个极大极小优化问题：

了解更多：SVM

6. 神经网络的误差传播的原理

BP网络拓扑结构印象中记得老师讲。以3层的为例。紫色圈圈的误差，需要由它所有的输入负责，即每一个粉红色的圈圈都对误差负有责任，每个粉红色的圈圈的误差是两个紫色圈圈分给它的误差之和。

7.梯度提升树

网友评论

本文标题：面试题目总结

本文链接：https://www.haomeiwen.com/subject/deabxxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

面试题目总结

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读