美文网首页数据分析
科比职业生涯数据集分析

科比职业生涯数据集分析

作者: taon | 来源:发表于2020-06-16 09:10 被阅读0次

    1.项目目标

    通过分析科比职业生涯比赛的相关数据,掌握Numpy, Pandas, Matplotlib, Seaborn等常用数据分析库的用法,掌握常规的数据预处理的方法以及特征工程。掌握建立随机森林模型,模型参数调整,构建最好的模型,预测测试数据,并保存测试数据的方法。

    2.科比生涯简介

    不论你是否看NBA,都应该听说过科比布莱恩特这个名字,它是最接近篮球之神乔丹的运动员。科比于1996年以13顺位的选秀身份进入联盟,一生都效力于洛杉矶湖人队。于2016年宣布退役,职业生涯获奖无数,5次NBA总冠军,2次FMVP,1次MVP,4次AMVP,18次全明星,生涯总得分超33000分,未来的名人堂球员等。在今年的1月26日,科比乘坐的私人飞机不幸失事,科比和二女儿吉安娜永远地离开了我们,这对无数球迷是一个莫大的打击。虽然科比离开了我们,但曼巴精神将激励着一代又一代的年轻人去追逐自己的梦想。


    Kobe.jpg

    3.该数据集简介

    该数据集收录了自96赛季~2016赛季,科比整个职业生涯的比赛记录,共有30697条数据。每一条数据都是一次出手记录,其中包括动作类型,投篮类型,投射距离,投射位置,是否命中等25个特征。在该数据集中我们将以是否命中篮筐为标签值来进行分析,带有标签值的数据共25697条。我们将以这25697条数据作为训练数据进行建模,来对不带标签的5000条数据进行预测。

    4.数据集中各列特征说明

    列名称 含义
    action_type 动作类型,如跳投,扣篮,上篮
    combined_shot_type 组合投篮类型,如跳投,扣篮,勾手,擦板,罚球
    game_event_id 比赛的编号
    lat 出手的纬度
    loc_x 出手的x坐标
    loc_y 出手的y坐标
    lon 出手的经度
    minutes_remaining 距离比赛结束,还剩多少分钟
    period 交手的场次,取值为1~7
    playoffs 是否是打季后赛
    season 赛季,如13~14赛季
    seconds_remaining 距离比赛结束,还剩多少秒
    shot_distance 出手距离
    shot_made_flag 是否命中
    shot_type 投射类型,两分球还是三分球
    shot_zone_area 出手区域,左侧,右侧,中场,后场等
    shot_zone_basic 另一种划分出手区域的方式,中线,禁区,油漆区,左侧底角,右侧底角等
    shot_zone_range 出手区域的距离,小于8英尺,816英尺,1624英尺,24英尺以上等
    team_id 球队编号
    team_name 球队名称
    game_date 比赛日期
    matchup 对阵双方
    opponent 对手
    game_id 比赛的编号
    shot_id 出手的编号

    5.流程简介

    • 读取数据并做简单的描述性统计
    • 探索性分析,单变量分析,双变量分析
    • 数据与处理和特征工程
    • 建立随机森林模型并进行调参,选择最优参数
    • 对测试数据进行预测,并保存模型结果

    数据集和代码请参考:
    科比职业生涯数据集分析

    相关文章

      网友评论

        本文标题:科比职业生涯数据集分析

        本文链接:https://www.haomeiwen.com/subject/ezclxktx.html