美文网首页
《机器学习实战》算法总结

《机器学习实战》算法总结

作者: iOSDevLog | 来源:发表于2018-11-08 16:04 被阅读19次

    缺失值


    1. 使用可用特征的均值来填补缺失值
    2. 使用特殊值来填补缺失值,如-1
    3. 忽略有缺失值的样本
    4. 使用相似样本的均值添补缺失值
    5. 使用另外的机器学习算法预测缺失值。

    k-近邻算法


    • 优点:精度高、对异常值不敏感、无数据输入假定。

    • 缺点:计算复杂度高、空间复杂度高。

    • 适用数据范围:数值型和标称型。

    k近邻算法的一般流程

    1. 收集数据:可以使用任何方法。
    2. 准备数据:距离计算所需要的数值,最好是结构化的数据格式。
    3. 分析数据:可以使用任何方法。
    4. 训练算法:此步骤不适用于k近邻算法。
    5. 测试算法:计算错误率。
    6. 使用算法:首先需要输入样本数据和结构化的输出结果,然后运行k近邻算法判定输入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。

    决策树


    • 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。

    • 缺点:可能会产生过度匹配问题。

    • 适用数据类型:数值型和标称型。

    决策树的一般流程

    1. 收集数据:可以使用任何方法。
    2. 准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。
    3. 分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。
    4. 训练算法:构造树的数据结构。
    5. 测试算法:使用经验树计算错误率。
    6. 使用算法:此步骤可以适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义。

    朴素贝叶斯


    • 优点:在数据较少的情况下仍然有效,可以处理多类别问题。

    • 缺点:对于输入数据的准备方式较为敏感。

    • 适用数据类型:标称型数据。

    朴素贝叶斯的一般过程:

    1. 收集数据:可以使用任何方法。本章使用RSS源。
    2. 准备数据:需要数值型或者布尔型数据
    3. 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
    4. 训练算法:计算不同的独立特征的条件概率。
    5. 测试算法:计算错误率。
    6. 使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器,不一定非要是文本。

    Logistic回归

    • 优点:计算代价不高,易于理解和实现。

    • 缺点:容易欠拟合,分类精度可能不高。

    • 适用数据类型:数值型和标称型数据。

    Logistic回归的一般过程

    1. 收集数据:采用任意方法收集数据。
    2. 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。
    3. 分析数据:采用任意方法对数据进行分析。
    4. 训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。
    5. 测试算法:一旦训练步骤完成,分类将会很快。
    6. 使用算法:首先,我们需要一些输入数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数就可以对这些数值进行简单的回归计算,判定它们属于哪个类别;在这之后,我们就可以在输出的类别上做一些其他分析工作。

    支持向量机


    • 优点:泛化错误率低,计算开销不大,结果易解释。

    • 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。

    • 适用数据类型:数值型和标称型数据。

    SVM的一般流程

    1. 收集数据:可以使用任意方法。
    2. 准备数据:需要数值型数据。
    3. 分析数据:有助于可视化分隔超平面。
    4. 训练算法:SVM的大部分时间都源自训练,该过程主要实现两个参数的调优。
    5. 测试算法:十分简单的计算过程就可以实现。
    6. 使用算法:几乎所有分类问题都可以使用SVM,值得一提的是,SVM本身是一个二类分类器,对多类问题应用SVM需要对代码做一些修改。

    AdaBoost


    • 优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整

    • 缺点:对离群点敏感。

    • 适用数据类型:数值型和标称型数据。

    AdaBoost的一般流程

    1. 收集数据:可以使用任意方法。
    2. 准备数据:依赖于所使用的弱分类器类型,本章使用的是单层决策树,这种分类器可以处理任何数据类型。当然也可以使用任意分类器作为弱分类器。作为弱分类器,简单分类器的效果更好。
    3. 分析数据:可以使用任意方法。
    4. 训练算法:AdaBoost的大部分时间都用在训练上,分类器将多次在同一数据集上训练弱分类器。
    5. 测试算法:计算分类的错误率。
    6. 使用算法:同SVM一样,AdaBoost预测两个类别中的一个。如果想把它应用到多个类别的场合,那么就要像多类SVM中的做法一样对AdaBoost进行修改。

    线性回归


    • 优点:结果易于理解,计算上不复杂。

    • 缺点:对非线性的数据拟合不好。

    • 适用数据类型:数值型和标称型数据。

    回归的一般方法 收集数据:采用任意方法收集数据。

    1. 准备数据:回归需要数值型数据,标称型数据将被转成二值型数据。
    2. 分析数据:绘出数据的可视化二维图将有助于对数据做出理解和分析,在采用缩减法求得新回归系数之后,可以将新拟合线绘在图上作为对比。
    3. 训练算法:找到回归系数。
    4. 测试算法:使用R2或者预测值和数据的拟合度,来分析模型的效果。
    5. 使用算法:使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。

    树回归


    • 优点:可以对复杂和非线性的数据建模

    • 缺点:结果不易理解

    • 适用数据类型:数值型和标称型数据

    树回归的一般方法

    1. 收集数据:采用任意方法收集数据。
    2. 准备数据:需要数值型的数据,标称型数据应该映射成二值型数据。
    3. 分析数据:绘出数据的二维可视化显示结果,以字典方式生成树。
    4. 训练算法:大部分时间都花费在叶节点树模型的构建上。
    5. 测试算法:使用测试数据上的R2值来分析模型的效果。
    6. 使用算法:使用训练出的树做预测,预测结果还可以用来做很多事情

    k均值聚类


    • 优点:容易实现。

    • 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。

    • 适用数据类型:数值型数据。

    K均值聚类的一般流程

    1. 收集数据:使用任意方法。
    2. 准备数据:需要数值型数据来计算距离,也可以将标称型数据映射为二值型数据再用于距离计算。
    3. 分析数据:使用任意方法。 训练算法:不适用于无监督学习,即无监督学习没有训练过程。
    4. 测试算法:应用聚类算法、观察结果。可以使用量化的误差指标如误差平方和(后面会介绍)来评价算法的结果。
    5. 使用算法:可以用于所希望的任何应用。通常情况下,簇质心可以代表整个簇的数据来做出决策。

    Apriori算法


    • 优点:易编码实现

    • 缺点:在大数据集上可能较慢

    • 适用数据类型:数值型或者标称型数据

    Apriori算法的一般过程

    1. 收集数据:使用任意方法。
    2. 准备数据:任何数据类型都可以,因为我们只保存集合。
    3. 分析数据:使用任意方法。
    4. 训练算法:使用Apriori算法来找到频繁项集。
    5. 测试算法:不需要测试过程。
    6. 使用算法:用于发现频繁项集以及物品之间的关联规则。

    FP-growth算法


    • 优点:一般要快于Apriori

    • 缺点:实现比较困难,在某些数据集上性能会下降

    • 适用数据类型:标称型数据

    FP-growth的一般流程

    1. 收集数据:使用任意方法。
    2. 准备数据:由于存储的是集合,所以需要离散数据。如果要处理连续数据,需要将它们量化为离散值。
    3. 分析数据:使用任意方法。
    4. 训练算法:构建一个FP树,并对树进行挖据。
    5. 测试算法:没有测试过程。
    6. 使用算法:可用于识别经常出现的元素项,从而用于制定决策、推荐元素或进行预测等应用中。

    PCA 主成分分析


    • 优点:降低数据的复杂性,识别最重要的多个特征。

    • 缺点:不一定需要,且可能损失有用信息。

    • 适用数据类型:数值型数据。

    奇异值分解(Singular Value Decomposition,SVD)。


    • 优点:简化数据,去除噪声,提高算法的结果。

    • 缺点:数据的转换可能难以理解。

    • 适用数据类型:数值型数据。

    MapReduce:分布式计算的框架


    • 优点:可在短时间内完成大量工作。

    • 缺点:算法必须经过重写,需要对系统工程有一定的理解。

    • 适用数据类型:数值型和标称型数据。

    在MapReduce框架上使用SVM的一般方法

    1. 收集数据:数据按文本格式存放。
    2. 准备数据:输入数据已经是可用的格式,所以不需任何准备工作。如果你需要解析一个大规模的数据集,建议使用map作业来完成,从而达到并行处理的目的。
    3. 分析数据:无。
    4. 训练算法:与普通的SVM一样,在分类器训练上仍需花费大量的时间。
    5. 测试算法:在二维空间上可视化之后,观察超平面,判断算法是否有效。
    6. 使用算法:本例不会展示一个完整的应用,但会展示如何在大数据集上训练SVM。该算法其中一个应用场景就是文本分类,通常在文本分类里可能有大量的文档和成千上万的特征。

    [美]Peter Harrington. 机器学习实战 (图灵程序设计丛书 72)

    相关文章

      网友评论

          本文标题:《机器学习实战》算法总结

          本文链接:https://www.haomeiwen.com/subject/zwnsxqtx.html