美文网首页机器学习与模式识别机器学习
在真实数据集上的随机森林模型参数调优

在真实数据集上的随机森林模型参数调优

作者: YoghurtIce | 来源:发表于2016-01-28 11:36 被阅读12906次

    搞机器学习的人,都会有自己偏爱的某种算法,有的喜欢支持向量机(SVM),因为它公式表达的优雅和可利用方法实现的高质量;有的人喜欢决策树,因为它的简洁性和解释能力;还有人对神经网络非常痴狂,因为它解决问题的灵活性(一般在超大规模的数据集上,使用神经网络,效果会好于其他所有的机器学习算法)。但是就我本人而言,我最喜欢的算法是随机森林,理由如下:

    • 通用性。随机森林算法可以应用于很多类别的模型任务。它们可以很好的处理回归问题,也能对分类问题应付自如,多分类和二分类都可以,一个能当三个用呢!
    • 随机森林算法很难被打败。针对任何给定的数据集,几乎都表现的很好,当然你说神经网络会表现的更好,那么我应该不会反驳,因为我知道你是一个有耐心的人,可以连续很多天不休息,只是为了调参。
    • 天生的并行性。从根本上说,随机森林就是众多的决策树组合,所以很容易把任务分解,使我们的随机森林算法并行。

    当然,随机森林也有比较明显的缺点,对机器内存的要求比较高,为了增加我们预测的精度,我们可能需要建立几千棵甚至上万课决策树,所以买一个大内存的电脑是多么的有必要。

    1 数据集

    我们的数据集是来自一个著名的数据挖掘竞赛网站,是一个关于泰坦尼克号,游客生存情况的调查。可以从这里下载:泰坦尼克数据集

    各个数据字段的含义
    上面的一张图,是我从官网上下载的,总的来说,里面的每一行数据,差不多有11个字段,包括游客的年龄、名字、性别、买的几等仓的票等等信息,最后是他的生存情况,在这场事故中,他是死了还是幸存。
    不想解释了,直接读入数据吧
    import numpy as np
    import pandas as pd
    from sklearn.ensemble import RandomForestClassifier
    train = pd.read_csv("E:/train.csv", dtype={"Age": np.float64},)
    train.head(10)
    
    前十行数据
    稍微分析一下,我们就可以筛选出对一个游客的生存与否有关的变量:Pclass, Sex, Age, SibSp,Parch,Fare, Embarked. 一般来说,游客的名字,买的船票号码对其的生存情况应该影响很小。
    len(train_data)
    out:891
    

    我们共有891条数据,将近900条,我们使用600条作为训练数据,剩下的291条作为测试数据,通过对随机森林的参数不断调优,找出在测试结果上,预测最为精确的随机森林模型。
    在具体的实验之前,我们看一下使用随机森林模型,需要注意哪几个变量:
    在 sklearn中,随机森林的函数模型是:

    RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                max_depth=None, max_features='auto', max_leaf_nodes=None,
                min_samples_leaf=1, min_samples_split=2,
                min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
                oob_score=False, random_state=None, verbose=0,
                warm_start=False)
    

    A. max_features

    随机森林允许单个决策树使用特征的最大数量。 Python为最大特征数提供了多个可选项。 下面是其中的几个:

    Auto/None :简单地选取所有特征,每颗树都可以利用他们。这种情况下,每颗树都没有任何的限制。

    sqrt :此选项是每颗子树可以利用总特征数的平方根个。 例如,如果变量(特征)的总数是100,所以每颗子树只能取其中的10个。“log2”是另一种相似类型的选项。

    0.2:此选项允许每个随机森林的子树可以利用变量(特征)数的20%。如果想考察的特征x%的作用, 我们可以使用“0.X”的格式。

    max_features如何影响性能和速度?

    增加max_features一般能提高模型的性能,因为在每个节点上,我们有更多的选择可以考虑。 然而,这未必完全是对的,因为它降低了单个树的多样性,而这正是随机森林独特的优点。 但是,可以肯定,你通过增加max_features会降低算法的速度。 因此,你需要适当的平衡和选择最佳max_features。
    B. n_estimators

    在利用最大投票数或平均值来预测之前,你想要建立子树的数量。 较多的子树可以让模型有更好的性能,但同时让你的代码变慢。 你应该选择尽可能高的值,只要你的处理器能够承受的住,因为这使你的预测更好更稳定。
    C. min_sample_leaf

    如果您以前编写过一个决策树,你能体会到最小样本叶片大小的重要性。 叶是决策树的末端节点。 较小的叶子使模型更容易捕捉训练数据中的噪声。 一般来说,我更偏向于将最小叶子节点数目设置为大于50。在你自己的情况中,你应该尽量尝试多种叶子大小种类,以找到最优的那个。

    下面我们对上面提到的三个参数,进行调优,首先参数A,由于在我们的这个数据中,数据段总共只有七八个,所以我们就简单的选取所有的特征,所以我们只需要对剩下的两个变量进行调优。
    在sklearn自带的随机森林算法中,输入的值必须是整数或者浮点数,所以我们需要对数据进行预处理,将字符串转化成整数或者浮点数

    def harmonize_data(titanic):
        # 填充空数据 和 把string数据转成integer表示
        # 对于年龄字段发生缺失,我们用所有年龄的均值替代
        titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median())
        # 性别男: 用0替代
        titanic.loc[titanic["Sex"] == "male", "Sex"] = 0
        # 性别女: 用1替代
        titanic.loc[titanic["Sex"] == "female", "Sex"] = 1
       
        titanic["Embarked"] = titanic["Embarked"].fillna("S")
    
        titanic.loc[titanic["Embarked"] == "S", "Embarked"] = 0
        titanic.loc[titanic["Embarked"] == "C", "Embarked"] = 1
        titanic.loc[titanic["Embarked"] == "Q", "Embarked"] = 2
    
        titanic["Fare"] = titanic["Fare"].fillna(titanic["Fare"].median())
    
        return titanic
    
    train_data = harmonize_data(train)
    

    上面的代码是对原始数据进行清洗,填补缺失数据, 把string类型数据转化成int数据
    下面的工作,我们开始划分训练数据和测试数据,总的数据有891个,我们用600个训练数据集,剩下的291个作为测试数据集。

    # 列出对生存结果有影响的字段
    predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]
    # 存放不同参数取值,以及对应的精度,每一个元素都是一个三元组(a, b, c)
    results = []
    # 最小叶子结点的参数取值
    sample_leaf_options = list(range(1, 500, 3))
    # 决策树个数参数取值
    n_estimators_options = list(range(1, 1000, 5))
    groud_truth = train_data['Survived'][601:]
    
    for leaf_size in sample_leaf_options:
        for n_estimators_size in n_estimators_options:
            alg = RandomForestClassifier(min_samples_leaf=leaf_size, n_estimators=n_estimators_size, random_state=50)
            alg.fit(train_data[predictors][:600], train_data['Survived'][:600])
            predict = alg.predict(train_data[predictors][601:])
            # 用一个三元组,分别记录当前的 min_samples_leaf,n_estimators, 和在测试数据集上的精度
            results.append((leaf_size, n_estimators_size, (groud_truth == predict).mean()))
            # 真实结果和预测结果进行比较,计算准确率
            print((groud_truth == predict).mean())
    
    # 打印精度最大的那一个三元组
    print(max(results, key=lambda x: x[2]))
    

    总的来说,调参对随机森林来说,不会发生很大的波动,相比神经网络来说,随机森林即使使用默认的参数,也可以达到良好的结果。在我们的例子中,通过粗略的调参,可以在测试集上达到84%的预测准确率,我觉得效果应该出乎我的意料吧。
    附上全部代码:

    __author__ = 'Administrator'
    import numpy as np
    import pandas as pd
    from sklearn.ensemble import RandomForestClassifier
    
    train = pd.read_csv("E:/train.csv", dtype={"Age": np.float64},)
    
    
    def harmonize_data(titanic):
        # 填充空数据 和 把string数据转成integer表示
    
        titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median())
    
        titanic.loc[titanic["Sex"] == "male", "Sex"] = 0
        titanic.loc[titanic["Sex"] == "female", "Sex"] = 1
    
        titanic["Embarked"] = titanic["Embarked"].fillna("S")
    
        titanic.loc[titanic["Embarked"] == "S", "Embarked"] = 0
        titanic.loc[titanic["Embarked"] == "C", "Embarked"] = 1
        titanic.loc[titanic["Embarked"] == "Q", "Embarked"] = 2
    
        titanic["Fare"] = titanic["Fare"].fillna(titanic["Fare"].median())
    
        return titanic
    
    train_data = harmonize_data(train)
    
    predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked"]
    results = []
    sample_leaf_options = list(range(1, 500, 3))
    n_estimators_options = list(range(1, 1000, 5))
    groud_truth = train_data['Survived'][601:]
    
    for leaf_size in sample_leaf_options:
        for n_estimators_size in n_estimators_options:
            alg = RandomForestClassifier(min_samples_leaf=leaf_size, n_estimators=n_estimators_size, random_state=50)
            alg.fit(train_data[predictors][:600], train_data['Survived'][:600])
            predict = alg.predict(train_data[predictors][601:])
            # 用一个三元组,分别记录当前的 min_samples_leaf,n_estimators, 和在测试数据集上的精度
            results.append((leaf_size, n_estimators_size, (groud_truth == predict).mean()))
            # 真实结果和预测结果进行比较,计算准确率
            print((groud_truth == predict).mean())
    
    # 打印精度最大的那一个三元组
    print(max(results, key=lambda x: x[2]))
    
    

    有问题可以一起交流:
    EMAIL:1527927373@qq.com

    相关文章

      网友评论

      • M_lear:代码中的 median()函数求的是中位数,而不是均值,怎么会犯这个低级的的错误
      • xiav:请问一下,为什么调参的时候每个循环里用训练集训练,然后直接以测试集去记录精度?测试集不是应该不参与调参,在调参结束后去测试精度吗?

      本文标题:在真实数据集上的随机森林模型参数调优

      本文链接:https://www.haomeiwen.com/subject/yaadkttx.html