美文网首页智能创意坊程序员
机器学习算法优缺点与适用类型(机器学习实战-学习笔记)

机器学习算法优缺点与适用类型(机器学习实战-学习笔记)

作者: 虽不中不远矣 | 来源:发表于2019-04-15 10:03 被阅读4次

    一、分类

    1、k-临近算法(kNN)

    优点:精度高、对异常值不明感、无数据输入假定

    缺点:计算复杂度高、空间复杂度高

    适用数据范围:数据型和标称型

    2、决策树

    优点:计算复杂度不高、输出结果易理解、对中间值的缺失不敏感、可处理不相关特征数据

    缺点:可能会产生过度匹配问题(需要剪枝)

    适用数据范围:数值型和标称型

    3、朴素贝叶斯

    优点:对数据较少的情况下任然有效,可以处理多类别问题

    缺点:对于输入数据的准备方式较为敏感

    适用数据范围:标称型数据

    4、logistic 回归

    优点:计算代价不高,易于理解实现

    缺点:容易大拟合,分类精度可能不高

    适用数据类型:数值型和标称型

    5、支持向量机

    优点:泛化错误率低,计算开销不大,结果易于理解

    缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅仅适用于处理二值问题

    适用数据类型:数值型和标称型

    6、AdaBoost元算法

    优点:泛化错误率低,易编码,可应用在大部分分类器上,无参数调整

    缺点:对离群点不敏感

    适用数据类型:数值型和标称型

    二、回归预测数值型数据

    1、线性回归

    优点:结果易于理解,计算上不复杂

    缺点:对非线性的数据拟合不好

    适用数据类型:数值型和标称型

    2、树回归

    优点:可对复杂和非线性数据建模

    缺点:结果不易于理解

    适用数据类型:数值型和标称型

    三、无监督学习(聚类)

    1、k-均值聚类算法

    优点:容易实现

    缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢

    适用数据类型:数值型

    2、Apriori算法

    优点:易编码实现

    缺点:在大数据上可能较慢

    适用数据类型:数值型和标称型

    3、FP-growth算法

    优点:一般快于Apriori算法

    缺点:实现比较困难,在某些数据集上性能会下降

    适用数据类型:标称型

    四、其它工具

    1、主成分分析(PCA)

    优点:降低数据复杂性,识别最重要的多个特征

    缺点:不一定需要,可能损失有用信息

    适用数据类型:数据型

    2、奇异值分解(SVD)

    优点:简化数据,去除噪声,提高算法效果

    缺点:数据转换可能难以理解

    适用数据类型:数据型

    3、MapReduce

    优点:可在短时间完成大量工作

    缺点:算法必须经过重写,需要对系统工程有一定了解

    适用数据类型:数值型和标称型

    相关文章

      网友评论

        本文标题:机器学习算法优缺点与适用类型(机器学习实战-学习笔记)

        本文链接:https://www.haomeiwen.com/subject/gdlfbqtx.html