分类算法的总结

作者: 雨宝_f737 | 来源:发表于2019-03-06 21:01 被阅读0次

复习 - 模型测试
分类算法的总结
算法题分类总结
关于算法
分类算法与数据挖掘
2018.12.8
十大排序算法总结
分类算法优缺点总结
大数据算法：分类算法
《机器学习实战》读书笔记10

1.LR：

好：可以自动进行特征选择，易解释；对异常值敏感

缺点：数据不能有缺失；需要费事选择合适的特征，需要进行繁琐的特征处理，例如连续特征离散化，离散特征找值域，特征组合。

2.SVM:

核选择问题：使用交叉验证选择核；如果Feature的数量很大，跟样本数量差不多，这时候选用LR或者是Linear Kernel的SVM；如果Feature的数量比较小，样本数量一般，不算大也不算小，选用SVM+Gaussian Kernel；如果Feature的数量比较小，而样本数量很多，需要手工添加一些feature变成第一种情况（如果特征维数很高，往往线性可分（SVM解决非线性分类问题的思路就是将样本映射到更高维的特征空间中），可以采用LR或者线性核的SVM；如果样本数量很多，由于求解最优化问题的时候，目标函数涉及两两样本计算内积，使用高斯核明显计算量会大于线性核，所以手动添加一些特征，使得线性可分，然后可以用LR或者线性核的SVM；如果不满足上述两点，即特征维数少，样本数量正常，可以使用高斯核的SVM）

好：超平面只需要支持向量，节省了内存；对异常值不敏感

缺点：非常难训练，每次选两个a来训练，很慢呀；

SVM为什么比不上MLP？SVM将特征映射到高维的方式是固定的，是通过核函数映射的，但是MLP映射到高维空间的方式是通过自己选择的，通过训练进行选择。

3.Naive bayes:

好：概率计算简化

缺点：假设样本特征相互独立，如果关联强则不行。

4.KNN：

好：无参数训练

缺点：k需要指定

5.DT

好：数据可以任意类型，也可缺失；解释性好；能够很好地进行特征转换

缺点：训练耗时，每次选一个特征的一个分割点;容易过拟合

6.随机森林和GBDT的区别：

随机森林是average方法，减少的是方差；坏处是要算多棵树，代价很大

GBDT是boosting方法，减少的是偏差

网友评论

本文标题：分类算法的总结

本文链接：https://www.haomeiwen.com/subject/wuffpqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

分类算法的总结

相关文章

复习 - 模型测试