深度学习|泰坦尼克号生还数据处理

作者: 罗罗攀 | 来源:发表于2019-01-19 09:15 被阅读15次

之前我们用过传统的机器学习算法预测过泰坦尼克号数据的生还情况,这次我们使用神经网络算法来进行建模。

数据处理

数据情况

这里的数据来源与kaggle上的数据,读者可以自行进行下载,我们通过pandas读取,首先看看数据的基本情况。

import numpy as np
import pandas as pd

data = pd.read_csv('titanic.csv')
data.head()

我们使用的字段有下面几个:

  • Survived:是否生还
  • Pclass:船舱等级
  • Sex:性别
  • Age:年龄
  • SibSp:手足和配偶在船上的数量
  • Parch:双亲和手足在船上的数量
  • Fare:费用
  • Embarked:登船港口

我们把这些字段筛选出来。

缺失值处理

首先,我们看看数据的缺失情况。

data.isnull().sum()

这里有两个字段有缺失值,age我们用平均值,embarked我们用最多的值进行填充。

age_mean = data['Age'].mean()
data['Age'] = data['Age'].fillna(age_mean)
data['Embarked'] = data['Embarked'].fillna('S')
性别和embarked
  • 性别需要换成0和1
  • embarked进行哑变量
data['Sex']= data['Sex'].map({'female':0, 'male': 1}).astype(int)

data = pd.get_dummies(data=data,columns=['Embarked'])
划分数据集

接着我们按0.8划分数据集。

X = data.iloc[:,1:]
Y = data.iloc[:,0]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=33)
标准化

最后我们把数据进行标准化,这样数据我们就处理完了。

from sklearn import preprocessing
scale = preprocessing.MinMaxScaler()
X_train = scale.fit_transform(X_train)
X_test = scale.transform(X_test)

相关文章

  • 深度学习|泰坦尼克号生还数据处理

    之前我们用过传统的机器学习算法预测过泰坦尼克号数据的生还情况,这次我们使用神经网络算法来进行建模。 数据处理 数据...

  • 项目 0: 预测泰坦尼克号乘客生还率

    机器学习工程师纳米学位 机器学习基础 项目 0: 预测泰坦尼克号乘客生还率 1912年,泰坦尼克号在第一次航行中就...

  • Pytorch_数据基础

    机器学习需要掌握数据处理工具Pandas、Numpy,同理,深度学习也需要掌握相应的数据处理工具,在Pytorch...

  • 泰坦尼克号数据分析以及幸存预测

    泰坦尼克号数据分析 标签: 机器学习深度学习 这个是对kaggle上的泰坦尼克号的数据分析,通过对数据中的各个特征...

  • 深度学习|泰坦尼克号生还数据预测(MLP)

    前言 上次分享,我们利用pandas和sklearn完成了泰坦尼克号数据的预处理,包括下面的步骤,具体可看深度学习...

  • keras学习-基础部分

    keras学习基础 参考《Python深度学习》一书 python 扩展学习 数据处理相关 轴方向 注意之后,k折...

  • 深度学习与机器学习的区别

    1. 深度学习:一种实现机器学习的技术 所谓深度学习,简单来说是机器学习的一个子集,用于建立、模拟人脑进行数据处理...

  • PythonLog171020

    本周开始确定学习方向1.科学计算2.数据处理3.机器语言4.深度学习目前第一阶段主要是科学计算,数据处理。Pyth...

  • 泰坦尼克号生还者预测案例分析

    泰坦尼克号生还者预测 1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有...

  • 泰坦尼克号生还率分析

    泰坦尼克号生还率分析 数据来源 kaggle 数据集 → 共有 1309 名乘客数据,其中 891 是已知存活情况...

网友评论

    本文标题:深度学习|泰坦尼克号生还数据处理

    本文链接:https://www.haomeiwen.com/subject/mvzxdqtx.html