ML之LoR:kaggle比赛之利用泰坦尼克号数据集建立LoR模型对每个人进行获救是否预测
比赛要求:根据训练集数据和测试集数据生成自己的预测模型,按照预测模型来预测出892到1309条数据是否获救,按照比赛规定的格式生成csv文件,并上传到kaggle上,然后会反馈预测的准确率。
导读
泰坦尼克号沉船事故。1912年,当时隶属于英国的世界级豪华客轮泰坦尼克号,因在处女航行中不幸撞上北大西洋冰山而沉没。这场事故使得1500多名乘客罹难。后来,这场震惊世界的惨剧被详细地调查,而且遇难乘客的信息也逐渐被披露。在当时的救援条件下,无法在短时间内确认每位乘客生还的可能性。而今,许多科学家试图通过计算机模拟和分析找出潜藏在数据背后的生还逻辑,通过人工智能算法,尝试揭开这尘封了 100多年的数据的面纱。
一、总体设计思路
二、特征工程处理
1、先看一下泰坦尼克号训练数据集的字段内容
PassengerId : 乘客ID
Pclass : 乘客等级 1,2,3等舱位
Name : 乘客姓名
Sex : 性别
Age :年龄
SibSp : 堂兄弟/妹个数
Parch : 父母与小孩个数
Ticket : 船票信息
Fare : 票价
Cabin : 客舱
Embarked : 登船港口
2、 one-hot encoding
3、定义绘制学习曲线
网友评论