美文网首页
面试题目总结

面试题目总结

作者: 安于此生__ | 来源:发表于2017-05-22 15:32 被阅读0次

    阿里机器学习面试的一些题目,

    1.说一下KNN的过程(刚开始的时候和k-means搞混了。。。)

    KNN是k nearest neighbor 的简称,即k最邻近,就是找k个最近的实例投票决定新实例的类标。KNN是一种基于实例的学习算法,它不同于贝叶斯、决策树等算法,KNN不需要训练,当有新的实例出现时,直接在训练数据集中找k个最近的实例,把这个新的实例分配给这k个训练实例中实例数最多类。KNN也称为懒惰学习,它不需要训练过程,在类标边界比较整齐的情况下分类的准确率很高。KNN算法需要人为决定K的取值,即找几个最近的实例,k值不同,分类结果的结果也会不同。

    2. ID3 C4.5 CART根据什么选择特征

    ID3根据信息增益选择特征。C4.5根据信息增益率。CART根据基尼指数

    参考链接:决策树(ID3、C4.5、CART)

    3. 朴素贝叶斯的假设是什么?

    所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。

    4. 如果某个特征在训练集出现,测试集没出现没出现,概率计算出来是0,怎么解决?

    某特征在训练集中未出现,避免概率计算为0,引入laplace平滑方法

    5. SVM软间隔目标函数,及对偶函数的形式

    当数据近似线性可分时,通过软间隔最大化学习一个线性分类器,即线性支持向量机;当数据线性不可分时,通过核技巧及软间隔最大化学习非线性支持向量机。

    目标函数变为:

    求min

    其中C称为惩罚参数,且C>0。在线性支持向量机中加入了惩罚项。

    利用拉格朗日函数的对偶性,将问题变成一个极大极小优化问题:

    了解更多:SVM

    6. 神经网络的误差传播的原理

    BP网络拓扑结构 印象中记得老师讲。以3层的为例。紫色圈圈的误差,需要由它所有的输入负责,即每一个粉红色的圈圈都对误差负有责任,每个粉红色的圈圈的误差是两个紫色圈圈分给它的误差之和。

    7.梯度提升树

    相关文章

      网友评论

          本文标题:面试题目总结

          本文链接:https://www.haomeiwen.com/subject/deabxxtx.html