美文网首页
Kaggle Titanic乘客生还预测

Kaggle Titanic乘客生还预测

作者: lkdont | 来源:发表于2018-02-07 00:16 被阅读0次

    各列数据的意义:

    1. PassengerId:乘客id
    2. Survived:是否生还
    3. Pclass:船票等级
    4. Name:姓名
    5. Sex:性别
    6. Age:年龄
    7. SibSp:登船兄弟姊妹/配偶数量
    8. Parch:登船父母/子女数量
    9. Ticket:船票号码
    10. Fare:船票价格
    11. Cabin:船舱
    12. Embarked:登船口
    import pandas as pd
    import numpy as np
    
    # 加载训练数据
    original_data = pd.read_csv("train.csv")
    # 加载要预测的数据
    original_predict_data = pd.read_csv("test.csv")
    
    # 我们要预测的值是Survived,所以将其取出来。
    y = original_data.Survived
    original_data_without_survived = original_data.drop(["Survived"], axis=1)
    # 由于数据分为训练数据和预测数据两个数据集,为了能以统一的方式处理数据,先将这两个数据集合并。
    data = pd.concat([original_data_without_survived, original_predict_data], ignore_index=True)
    

    1. 处理属性

    有一些属性需要处理后才能用于训练模型。

    1.1 PassengerId

    PassengerId仅代表数据集中乘客的顺序,不影响乘客是否生还的结果,所以将其移除以防止影响预测结果。

    data = data.drop(["PassengerId"], axis=1)
    

    1.2 姓名

    姓名属于标称属性,但每个人的姓名都不一样,这样并不好处理。检查数据发现每个姓名中都带有头衔,头衔的可能性较少,可以将其提取出来作为一个独立的属性来处理。

    import re
    name_title_pattern = re.compile(r'\w+\.')
    # NameTitle的可能性为18个,与15相差不大,可适用one-hot编码。
    data["NameTitle"] = data.Name.apply(lambda n: name_title_pattern.search(n).group())
    # 去除姓名属性
    data = data.drop(["Name"], axis=1)
    

    1.3 性别

    性别属于二元属性(只有男和女两种可能性),这里用“0”表示male,“1”表示female。

    data["Sex"] = data.Sex.map({"male":0, "female":1})
    

    1.4 船票号码

    大多数的船票号码都是独立的,小部分号码是重复的。猜测拥有相同船票号码的乘客可能是同伴关系,因此将号码重复的次数作为一个独立的属性。

    ticket_map = {}
    for ticket in data.Ticket:
        if ticket in ticket_map:
            ticket_map[ticket] += 1
        else:
            ticket_map[ticket] = 1
    data["Ticket"] = data.Ticket.apply(lambda t: ticket_map[t])
    

    1.5 船舱

    类似船票号码,大多数船舱都是独立唯一的。检查数据发现船舱首字母的重复性较高,猜测其代表船舱的区域,所以将其提取出来作为独立属性。

    data["Cabin"] = data.Cabin.apply(lambda c: np.NaN if pd.isnull(c) else c[0])
    

    1.6 船票等级

    虽然船票等级属性为数值类型,但是可以将其看作分类属性。

    pclass_names = ["A", "B", "C"]
    data["PclassName"] = data.Pclass.apply(lambda x: pclass_names[x-1])
    data = data.drop(["Pclass"], axis=1)
    

    2. 处理缺失值

    2.1 年龄

    年龄丢失情况比较多,这里以pclass和性别进行分组,并取其中位数作为缺失值。

    def get_default_age(pclass_name, sex):
        ages = data.Age[(data.PclassName == pclass_name) & (data.Sex == sex)]
        return ages.quantile(0.5)
    
    data["Age2"] = data.apply(lambda r: get_default_age(r.PclassName, r.Sex) if pd.isnull(r.Age) else r.Age, axis=1)
    # 将填充年龄的位置标记出来
    data["AgeFill"] = data.apply(lambda r: 1 if pd.isnull(r.Age) else 0, axis=1)
    # 将原本的年龄去除
    data = data.drop(["Age"], axis=1)
    

    2.2 船票价格

    船票价格缺失值使用乘客所在等级的船票平均价格代替。

    data["Fare"] = data.apply(lambda r: data.Fare[data.PclassName == r.PclassName].mean() if pd.isnull(r.Fare) else r.Fare, axis=1)
    

    2.3 船舱

    船舱缺失值太多,强行补充数据可能会为模型引入不必要的影响,所以将缺失值用“unknown”代替。

    data["Cabin"] = data.Cabin.apply(lambda x: "unknown" if pd.isnull(x) else x)
    

    2.4 登船口

    缺失值使用出现频率最高的值代替。

    # 出现频率最高的值是S
    data["Embarked"] = data.Embarked.apply(lambda e: "S" if pd.isnull(e) else e)
    

    3. one-hot编码

    数据集中包含object类型的数据,不能直接用来训练模型。one-hot编码则是这种情况的常用解决方法,可以将object类型的数据转变成数值类型的数据。

    data = pd.get_dummies(data)
    

    4. 建立模型

    4.1 训练模型

    from sklearn.ensemble import RandomForestClassifier
    from sklearn.model_selection import cross_val_score
    from sklearn.pipeline import make_pipeline
    
    train_y = y
    train_X = data[:len(train_y)]
    
    my_pipeline = make_pipeline(RandomForestClassifier(max_depth=5,
                                                       n_estimators=120))
    my_pipeline.fit(train_X, train_y)
    
    Pipeline(steps=[('randomforestclassifier', RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                max_depth=5, max_features='auto', max_leaf_nodes=None,
                min_impurity_split=1e-07, min_samples_leaf=1,
                min_samples_split=2, min_weight_fraction_leaf=0.0,
                n_estimators=120, n_jobs=1, oob_score=False, random_state=None,
                verbose=0, warm_start=False))])
    

    4.2 预测并输出结果

    predict_X = data[len(y):]
    predict_y = my_pipeline.predict(predict_X)
    
    ids = original_predict_data.PassengerId
    submission = pd.DataFrame({
            "PassengerId": ids,
            "Survived": predict_y
        })
    submission.to_csv('submission.csv', index=False)
    

    最终结果:0.80382,排名前12%。

    相关文章

      网友评论

          本文标题:Kaggle Titanic乘客生还预测

          本文链接:https://www.haomeiwen.com/subject/hdonzxtx.html