美文网首页
kaggle项目实战——泰坦尼克号船员存活率预测

kaggle项目实战——泰坦尼克号船员存活率预测

作者: 小小韩_小小红 | 来源:发表于2019-03-03 23:50 被阅读0次

    很久之前练习过的一个kaggle项目,有点记不清了,今天来温习下,嘻嘻~
    kaggle给初学者或者富有挑战能力的选手们提供了一个非常好的平台,希望自己以后尽量抽时间多做几个这种项目,与大牛们一起交流学习~

    1.下载理解数据集

    下载地址:https://www.kaggle.com/c/titanic/data(需要注册kaggle才能下载哦~)
    下载完数据集要理解每个字段的含义,项目背景等,这个 很重要哦~

    2.加载查看数据分布、缺失、异常情况

    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    %matplotlib inline
    train=pd.read_csv("F:/titanic/train.csv")
    test=pd.read_csv("F:/titanic/test.csv")
    train.head() #大概看一下数据长什么样
    
    #查看数据类型,缺失情况等信息
    train.info()
    test.info()
    

    通过上面的信息,我们可以得到:

    • 训练集共有891个样本,测试集共有418个样本
    • 训练集和测试集中Cabin这个特征缺失都比较多,了解到这个特征的意思是客舱号码,跟我们要预测的船员是否生存关系应该不大,因此后期考虑将这个特征删除
    • 训练集和测试集中Age这个特征都有缺失,但是缺失不多,可以通过众数、中位数、均值、插值、特殊值等填充,鉴于时间和成本因素,后面我直接用众数填充,有精力的可以多尝试几种方法,选择最好的进行填充
    • Embarked仅在训练集中有缺失,缺失2个,也是不多,且了解到这个特征的意思是登船港,共有3个不同的取值,因此后面直接用众数进行填充
    • Fare仅在测试集中有1个缺失,且了解到这个特征的意思是旅客票价,应该跟Pclass(Ticket class )相关性比较高,后面将结合Pclass进行填充
      好了,知道了数据大概的缺失情况,我们下面看一下他们的统计性描述信息:
    train.describe()
    test.describe()
    

    通过上面的统计描述信息,我们可以发现:

    • 训练集中平均38%左右的人生还
    • Pclass即船票类型共分三等,分别是1、2、3
    • 数据集中年龄最大的是80,最小的是0.17,年龄在50岁以上的人很少,大部分集中在20-40岁之间
    • 船票价格差距较大,支付高价格的人很少
    • 带父母或孩子出行的乘客很少
    • PassengerId只是每位乘客的一个唯一标识,训练模型时可将该特征去掉
      上面描述的都是数值型的特征信息,也可以查看字符型的特征信息:
    train.describe(include=["O"])
    

    通过对训练集的特征统计信息,可以发现:

    • Name这个特征所有的名字都不一样,但从名字中可能获取不到更多的信息,但是发现名字都带有Miss、Mr、Mrs这种称谓信息,后续可以在特征工程时构建此类信息
    • Sex特征中,男性占比更大,891人中577都是男性
    • Embarked特征中,共3个不同的取值,S即Southampton频次最高,644次

    3.数据探索,挖掘各个特征与目标特征之间的关系

    先看一下这些数值特征与目标特征间的线性相关性:

    import seaborn as sns 
    #Seaborn是对matplotlib的extend,是一个数据可视化库,提供更高级的API封装,在应用中更加的方便灵活
    corrmat=train.drop('PassengerId',axis=1).corr()
    f, ax = plt.subplots(figsize=(10, 7))
    plt.xticks(rotation='90')
    sns.heatmap(corrmat, square=True, linewidths=.5, annot=True)
    plt.show()
    

    通过上图,可以发现:

    • 是否生存与Fare程正相关,相关性系数为0.26,与Pclass程负相关,相关性系数为0.34,从实际含义也可以理解,因为票价越高,船票类型就越小,最好的船票是1等票,因此,Fare与Pclass的相关性系数也很高,0.55
    • Parch与SibSp相关性也很高,为0.415,
      下面我们再单独对这些特征进行分析:
      (1)对Pclass进行分析
    train[['Survived','Pclass']].groupby(['Pclass']).mean()
    

    通过上面的结果,可以发现Pclass等级越高,存活率越高,这是一个比较重要的特征
    (2)对Age进行分析
    target = sns.FacetGrid(train,col='Survived')
    target.map(plt.hist,'Age',bins=20)
    

    通过上图,可以发现:

    • 大部分乘客年龄都在20-40岁之间
    • 0-10岁之间存活下来的儿童较多,大量13-35岁之间的乘客没有存活下来,年龄最大(80岁)的老爷爷存活下来
    • 并不是年龄越大或者越小存活率越大,因此我们需要对年龄进行分段,具体划分方法可以通过人为经验、图像观察、决策树辅助等划分
      (3)对SibSp和Parch进行分析
    train[['Survived','SibSp']].groupby(['SibSp']).mean()
    train[['Survived','Parch']].groupby(['Parch']).mean()
    

    通过上图,可以发现:

    • 是否生存与SibSp、Parch线性相关性不是很明显,可以看后期模型中的效果再做判断
      (4)对Fare进行分析
    target = sns.FacetGrid(train,col='Survived')
    target.map(plt.hist,'Fare',bins=20)
    

    通过上图,可以发现:

    • 票价越低,存活率越低
    • 这个可以跟Pclass对应,船票等级越高,存活率越高,但这两个特征具有高度共线性,后期如果用线性回归之类的模型可以只用其中的一个特征
      (4)对Embarked进行分析
    train[['Survived','Embarked']].groupby(['Embarked']).mean()
    

    可以发现:

    • 从C口进入的乘客存活率更高,从S口进入的乘客存活率最低,改特征是定性特征,很多模型都无法直接运行,后续可以对改特征进行亚编码
      (5)对Sex分析
    train[['Survived','Sex']].groupby(['Sex']).mean()
    

    可以发现:

    • 女性的存活率明显高于男性,因此这个特征可能对最后的预测结果非常重要,后期需要进行亚编码,或者直接0、1二值化
      (6)对Pclass和Age一起分析
    target = sns.FacetGrid(train,col='Survived',row='Pclass')
    target.map(plt.hist,'Age',bins=20)
    

    可以发现:

    • 船票类型是3,年龄在15-40岁之间的乘客存活率很低
    • 船票类型是2或3,年龄在0-15岁之间存活率很高
    • 是否能存活与年龄和船票类型都有关,可以在特征工程时构造这样一个特征
      还可以分析很多特征组合的特点,充分发挥你的想象力,脑洞大开,这里就不再分析了,进行下一个环节咯~

    4.数据清洗、特征变换等

    经过上面的分析,我们需要:

    • 删掉PassengerId、Cabin这两个特征,Ticket这个特征貌似也没有太大的用处,这里也直接删除掉,然后对Age进行缺失值填充,这里用众数填充,Embarked也用众数填充,Fare只在测试集中有缺失,可以根据Pclass用训练集中的Fare均值进行填充
    • Embarked和Sex进行亚编码
    • Age分段和亚编码
    • Name提取称谓信息和亚编码
    del train['PassengerId']
    del train['Cabin']
    del train['Ticket']
    train = train.fillna({"Age":train.Age.mean(),'Embarked':"S"})
    train['Name']=train['Name'].map(lambda line: line.split(",")[1].split(".")[0])
    train.head()
    

    发现称谓除了 Mr、 Miss、 Mrs、 Master,其他的都很少,所以这里把剩下的都统一改成other

    train['Name']=train['Name'].map(lambda line: (line.strip() if line.strip() in ['Mr','Mrs','Miss','Master'] else 'other'))
    train['Name'].value_counts()
    train[['Survived','Name']].groupby(['Name']).mean().sort_values(by='Survived')
    

    可以发现,Mrs和Miss的存活率更高,Mr的存活率最低,后续我们也要将这个特征亚编码后加入模型中训练
    下面对Age进行分段,这里就直接根据前面的分析自己定义分段区间,有精力可以用决策树辅助分段,效果应该会更好

    def age_parse(line):
        if line <=15:
            return '0-15'
        elif 15<line<=35:
            return '15-35'
        elif 35<line<=50:
            return '35-50'
        else:
            return '>50'
    train['Age']=train['Age'].map(age_parse)
    train.head()
    

    下面对定性特征统一亚编码:

    train = pd.get_dummies(train)
    train.head()
    
    #去除亚编码后线性相关变量
    del train['Name_other']
    del train['Age_>50']
    del train['Embarked_S']
    del train['Sex_female']
    
    图1
    特征标准化

    由于Fare这个特征含有较大的数值,为了避免由于量纲带来的问题,我们将它进行标准化

    from sklearn import preprocessing
    scaler = preprocessing.StandardScaler().fit(np.array(train['Fare']).reshape(891,1))
    fare = scaler.transform(np.array(train['Fare']).reshape(891,1))
    train['Fare'] = fare
    train.head()
    
    注意: 测试集所有特征变换,特征清洗都是基于训练集来的,例如:如果训练集用训练集的A特征均值填充A特征的缺失值,那么测试集也要用训练集中A特征的均值填充缺失值,鉴于时间和精力有限,这里我只对训练集统一进行处理,测试集先不做处理,以后有时间再进行处理(捂脸),由于数据处理存在许多转换步骤,需要按一定的顺序执行,可以推荐用sklearn中的pipeline模块,可以对训练集和测试集统一数据处理,非常好用~

    5.构造特征工程

    这个环节就可以充分发挥你的想象力,构造与目标变量相关的线性特征、非线性特征、交叉特征等,可以构造很多,后面特征筛选的时候过滤掉就好,例如可以构造Age与Pclass的交叉特征,构造Pclass与称谓的交叉特征,sklearn也提供了相应的函数,如果有两个特征(x1,x2),构造2次多项式特征,则完后会生成(1, X1, X2, X1^2, X1X2, X2^ 2),这里我直接用特征构造函数,直接构造所有特征的2次多项式特征(也可以构造3次或者更高次,可以看下效果对比,这里我就直接生成2次多项式特征了)

    survived = train['Survived']
    from sklearn import preprocessing
    #构造2次多项式, 默认也是2次,设置参数include_bias= False,不包含偏差项数据
    poly = preprocessing.PolynomialFeatures(2,include_bias=False)
    poly_train = poly.fit_transform(train.drop(['Survived'],axis=1))
    poly.get_feature_names()[0:20]
    train_df =pd.DataFrame(poly_train)
    train_df .columns=poly.get_feature_names()#特征重命名
    train_df.head()
    

    注意:这里的列名x0,x1...与图一中除了‘Survived’的列名是一一对应的,因为名称太长,所以会自动生成新的名字
    生成了这么多特征,我们可以看一下他们与目标特征的相关性:

    可以发现:
    x0与x6,即Pclass与Name_mr相关性系数很高,x0与x10,即Pclass与Age_15-35相关性也很高,进一步查看下关系:
    train_df[['Survived','x0','x6']].groupby(['x0','x6']).mean().sort_values(by='Survived')
    train_df[['Survived','x0','x10']].groupby(['x0','x10']).mean().sort_values(by='Survived')
    

    可以发现:

    • 如果是Mr,那无论她的船票类型是什么,她的生存率都很高,但如果不是Mr,那只有他的船票类型是1等的时候,他的存活率才会较高,但还是没有Mr的高,因此这两个特征是非常重要的
    • 如果年龄在15-35之间,只有船票类型是1等的时候存活率才会较高,因此这两个特征也是非常重要的
      后续还可以再对其他的特征进行类似的分析~

    6.建模、调参、模型评估

    相关文章

      网友评论

          本文标题:kaggle项目实战——泰坦尼克号船员存活率预测

          本文链接:https://www.haomeiwen.com/subject/housuqtx.html