Keras 预测泰坦尼克号旅客生存概率

作者: Stefan0 | 来源:发表于2018-10-17 11:05 被阅读0次

Keras 预测泰坦尼克号旅客生存概率
Keras建立多层感知器预测泰坦尼克号旅客的生存概率
Keras 练习4 - 概率预测
142、机器学习之泰坦尼克号生存预测
Kaggle-泰坦尼克号生存概率预测（基础）
决策树，预测泰坦尼克号生存概率
基于pandas的CSV文件基本操作及DataFrame结构理解
泰坦尼克号生存预测分析
2019-07-23 LSTM的输入输出
kaggle—泰坦尼克号生存预测

泰坦尼克数据集训练集共有1309项，经过数据预处理会产生feature（9个）与label标签字段（是否生存？1：是，2：否），最后输入多层感知器模型训练，之后进行预测
1.下载数据集
所需模块

图片.png
下载地址
url='http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.xls'
设置文件存储路径：（要自己新建data文件夹路径，不然会报错不存在文件夹，后面的文件名一定要写上，虽然我们本地没有该文件）
filepath='C:\Users\zhangsheng\Desktop\Untitled Folder\data\titanic3.xls'

判断文件是否存在，不存在就会下载
if not os.path.isfile(filepath):
result=urllib.request.urlretrieve(url,filepath)
print('download:',result)
2.使用pandas 的DataFrame读取数据并进行预处理
导入所需的模块，并使用pandas的read_excel()方法把xls文件读取到DataFrame
然后查看前两项旅客数据

图片.png

（注意这里先要安装xlrs模块，要不然会报错没有该模块）
上面字段的survival是label标签，也就是我们要预测的目标，其余都是特征字段
并且ticket（船票号码）和cabin（舱位号码）与预测结果无关，将其忽略。
我们选择一下字段到DataFrame中，并显示前两项

图片.png

还有以下问题必须处理！！！！
name 姓名字段在训练时不需要，必须先删除，但在预测阶段会使用
age 有些项的age字段是null，必须将null改为平均值
fare 同age
sex 性别字段是文字，需转换为0和1
embarked 登船港口有三个分类需使用One-Hot Encoding 转换

3.数据预处理