1.项目目标
通过分析科比职业生涯比赛的相关数据,掌握Numpy, Pandas, Matplotlib, Seaborn等常用数据分析库的用法,掌握常规的数据预处理的方法以及特征工程。掌握建立随机森林模型,模型参数调整,构建最好的模型,预测测试数据,并保存测试数据的方法。
2.科比生涯简介
不论你是否看NBA,都应该听说过科比布莱恩特这个名字,它是最接近篮球之神乔丹的运动员。科比于1996年以13顺位的选秀身份进入联盟,一生都效力于洛杉矶湖人队。于2016年宣布退役,职业生涯获奖无数,5次NBA总冠军,2次FMVP,1次MVP,4次AMVP,18次全明星,生涯总得分超33000分,未来的名人堂球员等。在今年的1月26日,科比乘坐的私人飞机不幸失事,科比和二女儿吉安娜永远地离开了我们,这对无数球迷是一个莫大的打击。虽然科比离开了我们,但曼巴精神将激励着一代又一代的年轻人去追逐自己的梦想。
Kobe.jpg
3.该数据集简介
该数据集收录了自96赛季~2016赛季,科比整个职业生涯的比赛记录,共有30697条数据。每一条数据都是一次出手记录,其中包括动作类型,投篮类型,投射距离,投射位置,是否命中等25个特征。在该数据集中我们将以是否命中篮筐为标签值来进行分析,带有标签值的数据共25697条。我们将以这25697条数据作为训练数据进行建模,来对不带标签的5000条数据进行预测。
4.数据集中各列特征说明
列名称 | 含义 |
---|---|
action_type | 动作类型,如跳投,扣篮,上篮 |
combined_shot_type | 组合投篮类型,如跳投,扣篮,勾手,擦板,罚球 |
game_event_id | 比赛的编号 |
lat | 出手的纬度 |
loc_x | 出手的x坐标 |
loc_y | 出手的y坐标 |
lon | 出手的经度 |
minutes_remaining | 距离比赛结束,还剩多少分钟 |
period | 交手的场次,取值为1~7 |
playoffs | 是否是打季后赛 |
season | 赛季,如13~14赛季 |
seconds_remaining | 距离比赛结束,还剩多少秒 |
shot_distance | 出手距离 |
shot_made_flag | 是否命中 |
shot_type | 投射类型,两分球还是三分球 |
shot_zone_area | 出手区域,左侧,右侧,中场,后场等 |
shot_zone_basic | 另一种划分出手区域的方式,中线,禁区,油漆区,左侧底角,右侧底角等 |
shot_zone_range | 出手区域的距离,小于8英尺,816英尺,1624英尺,24英尺以上等 |
team_id | 球队编号 |
team_name | 球队名称 |
game_date | 比赛日期 |
matchup | 对阵双方 |
opponent | 对手 |
game_id | 比赛的编号 |
shot_id | 出手的编号 |
5.流程简介
- 读取数据并做简单的描述性统计
- 探索性分析,单变量分析,双变量分析
- 数据与处理和特征工程
- 建立随机森林模型并进行调参,选择最优参数
- 对测试数据进行预测,并保存模型结果
数据集和代码请参考:
科比职业生涯数据集分析
网友评论