美文网首页
分类算法的总结

分类算法的总结

作者: 雨宝_f737 | 来源:发表于2019-03-06 21:01 被阅读0次

1.LR:

好:可以自动进行特征选择,易解释;对异常值敏感

缺点:数据不能有缺失;需要费事选择合适的特征,需要进行繁琐的特征处理,例如连续特征离散化,离散特征找值域,特征组合。

2.SVM:

核选择问题:使用交叉验证选择核;如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM; 如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM+Gaussian Kernel; 如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况(如果特征维数很高,往往线性可分(SVM解决非线性分类问题的思路就是将样本映射到更高维的特征空间中),可以采用LR或者线性核的SVM;如果样本数量很多,由于求解最优化问题的时候,目标函数涉及两两样本计算内积,使用高斯核明显计算量会大于线性核,所以手动添加一些特征,使得线性可分,然后可以用LR或者线性核的SVM;如果不满足上述两点,即特征维数少,样本数量正常,可以使用高斯核的SVM)

好:超平面只需要支持向量,节省了内存;对异常值不敏感

缺点:非常难训练,每次选两个a来训练,很慢呀;

SVM为什么比不上MLP?SVM将特征映射到高维的方式是固定的,是通过核函数映射的,但是MLP映射到高维空间的方式是通过自己选择的,通过训练进行选择。

3.Naive bayes:

好:概率计算简化

缺点:假设样本特征相互独立,如果关联强则不行。

4.KNN:

好:无参数训练

缺点:k需要指定

5.DT

好:数据可以任意类型,也可缺失;解释性好;能够很好地进行特征转换

缺点:训练耗时,每次选一个特征的一个分割点;容易过拟合

6.随机森林和GBDT的区别:

随机森林是average方法,减少的是方差;坏处是要算多棵树,代价很大

GBDT是boosting方法,减少的是偏差

相关文章

  • 复习 - 模型测试

    一、模型测试的API总结 1、分类算法评估方式 2、回归算法评估方式 二、分类模型测试 交叉验证:(Cross V...

  • 分类算法的总结

    1.LR: 好:可以自动进行特征选择,易解释;对异常值敏感 缺点:数据不能有缺失;需要费事选择合适的特征,需要进行...

  • 算法题分类总结

    迭代查找类型 1. 题目描述 在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序...

  • 关于算法

    阿朱对于算法的了解不多,总结如下,希望多多交流,改正瑕疵。 1.算法分类 算法推荐主要有5种方式: 基于内容推荐:...

  • 分类算法与数据挖掘

    ################分类算法与数据挖掘---也就是回归于分类算法--对应于Y的0/1算法 ####分类...

  • 2018.12.8

    本周总结: 学习情况: 1、学习K-means算法,并通过在Python上运行k-means算法,绘制对应的分类图...

  • 十大排序算法总结

    排序算法的时间复杂度 排序的分类 1.冒泡排序(Bubble Sort) 好的,开始总结第一个排序算法,冒泡排序。...

  • 分类算法优缺点总结

    贝叶斯 优点:参数少;对于缺失数据不敏感;分类效率稳定 缺点:真实世界中独立事件很少;需要知道先验概率;决策存在错...

  • 大数据算法:分类算法

    KNN分类算法 KNN算法,即K近邻(K Nearest Neighbour)算法,是一种基本的分类算法。其主要原...

  • 《机器学习实战》读书笔记10

    K-均值算法概述 回顾前面总结的分类和回归算法,它们都有预期的目标变量,即:“对于输入数据x能预测y”,也因此这类...

网友评论

      本文标题:分类算法的总结

      本文链接:https://www.haomeiwen.com/subject/wuffpqtx.html