贝叶斯
优点:参数少;对于缺失数据不敏感;分类效率稳定
缺点:真实世界中独立事件很少;需要知道先验概率;决策存在错误率
决策树
优点:不需要参数假设;适合高维数据;易于理解;短时间内处理大量数据;能够同时处理多种形式的数据
缺点:对于各类别样本数量不一致的数据,信息增益偏向于具有更多数值的特征;易过拟合;忽略了属性相关性;不支持在线学习
SVM
优点:适合小样本下机器学习;提高泛化性能;可解决高维、非线性问题;适合超高维文本分类;避免了神经网络结构选择和局部极小的问题
缺点:对缺失数据敏感;内存消耗大;难以解释;运行和调参过程困难
KNN
优点:思想简单,理论成熟,可分类/回归;可用于非线性分类;训练时间复杂度为O(n);准确度高;不需数据假设;对离群点不敏感
缺点:计算量大;不适合样本分类不均衡情况;需要大量内存;可解释性不强
LR
优点:速度快;易于理解;更新模型容易;(如果想要一个概率框架,动态调整分类阀值)
缺点:特征处理复杂;需要归一化和较多的特征工程
NN
优点:准确率高;并行处理能力强;分布式存储和学习能力强;鲁棒性较强,不易受噪声影响
缺点:需要大量参数(网络拓扑、阀值、阈值);结果难以解释;训练时间过长
AdaBoosting
优点:精度高;可以使用各种方法构建子分类器,Adaboost算法提供的是框架;当使用简单分类器时,计算出的结果是可以理解的,而且弱分类器构造极其简单;简单,不用做特征筛选;不用担心过拟合
缺点:对离群点敏感
模型稳定性
SVM > kNN > Naive Bayes > LR / Reception > Neutral Networks > Decision Trees
网友评论