1.LR:
好:可以自动进行特征选择,易解释;对异常值敏感
缺点:数据不能有缺失;需要费事选择合适的特征,需要进行繁琐的特征处理,例如连续特征离散化,离散特征找值域,特征组合。
2.SVM:
核选择问题:使用交叉验证选择核;如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM; 如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM+Gaussian Kernel; 如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况(如果特征维数很高,往往线性可分(SVM解决非线性分类问题的思路就是将样本映射到更高维的特征空间中),可以采用LR或者线性核的SVM;如果样本数量很多,由于求解最优化问题的时候,目标函数涉及两两样本计算内积,使用高斯核明显计算量会大于线性核,所以手动添加一些特征,使得线性可分,然后可以用LR或者线性核的SVM;如果不满足上述两点,即特征维数少,样本数量正常,可以使用高斯核的SVM)
好:超平面只需要支持向量,节省了内存;对异常值不敏感
缺点:非常难训练,每次选两个a来训练,很慢呀;
SVM为什么比不上MLP?SVM将特征映射到高维的方式是固定的,是通过核函数映射的,但是MLP映射到高维空间的方式是通过自己选择的,通过训练进行选择。
3.Naive bayes:
好:概率计算简化
缺点:假设样本特征相互独立,如果关联强则不行。
4.KNN:
好:无参数训练
缺点:k需要指定
5.DT
好:数据可以任意类型,也可缺失;解释性好;能够很好地进行特征转换
缺点:训练耗时,每次选一个特征的一个分割点;容易过拟合
6.随机森林和GBDT的区别:
随机森林是average方法,减少的是方差;坏处是要算多棵树,代价很大
GBDT是boosting方法,减少的是偏差
网友评论