科比职业生涯数据分析
笔者将使用Python对数据进行分析,话不多说,直奔主题
1.首先传进去我们需要用的几个包。进行预览,总共有三万行,25列数据,数据量并不大。
大家可能要问道,25列数据都是什么意思,我现在将列名写出来,如果和笔者一样经常看NBA的人,对这些单词应该不陌生,没看过篮球也没关系,接下来在用到哪列数据我会再说明,现在就不一一说明了。
'action_type', 'combined_shot_type', 'loc_x', 'loc_y', 'period','playoffs', 'season', 'shot_made_flag', 'shot_zone_area', 'shot_zone_basic', 'opponent', 'time_remaining', 'shot_distance_','3pt_goal', 'game_year', 'game_month', 'game_day', 'home_game'
大家对照下图,我会说明几个要用到的几列。
period,表示当前是第几节比赛,‘1’表示第一节,‘2’表示第二节,‘5’第一个加时,没错‘7’表示打了三个加时,三个加时啊,体力是有多好。
playoffs,表示是不是季后赛,‘1’代表季后赛,‘0’表示常规赛
shot_made_flag,表示是否进球,‘1’代表进球
shot_type,表示进的是几分球
shot_zone_area,shot_zone_basic,这两个表示投篮区域,为什么是两个呢,下面做个可视化图大家就明白了。
shot_distance,表示投篮距离,单位是英尺,好奇的我赶紧查了一下最大的投篮距离,79英尺!!! 等于多少米呢,24米,oh my gad,我使出吃奶的劲都扔不到。
下面通过散点图将 shot_zone_area,shot_zone_basic 这两列展示了出来,大家应该一目了然了吧。这里面需要注意调入一个调色板,然后对数据进行分组就能画出来了。
下面将alpha的值调低,大家应该能看出点东西了,篮下位置密集度很高,说明我科突破和篮下强攻的出手次数要多于其他出手,三分线外,两个45度角明显比弧顶和底角密集度要高,说明在45度角出手是多于其他位置的出手。
下面写个重要的(尽管代码很简单),科比的投篮命中率,职业生涯44.6%的命中率,感觉还是可以的。
下图做了一个简单的操作,原来的数据中,科比这次出手离比赛结束还有多少时间,这个时间有分钟和秒数,现在把两个时间加到一块,用秒数来表示。然后观察可以明显看出,越接近比赛结束,出手次数越多,这就是巨星风范,嗯,我又夸我科了。
下面我们算一下,科比随着比赛的进行,投篮命中率的变化。这里命中率我是直接对shot_made_flag求平均数,大家能明白吗,因为投中球用数字‘1’表示,不中用‘0’表示。
So,我们看出,刚开始比赛的时候,投篮命中率是很低的,打篮球的朋友都知道,这个需要手感,中间的命中率是最高的,比赛最后阶段略微下降,联系实际很容易想到,这受到体力和防守强度的影响,不过科比的命中率还是很高的。
再看一下最后两分钟的出手次数,哇,最后一攻基本都是科比执行的,好像的确如此,从我看篮球以来就没见过科比最后有传球。我科关键时候从不甩锅,哈哈。
看个离比赛最后5秒的出手,下面两个图,红色表示未命中,蓝色表示命中。这个得出的结论就很明显了,距离越近,投得越准。
下面是每节比赛的出手次数和命中与投失的比例。
然后统计一下科比职业生涯中每节比赛的命中率,算法还是老样子,求平均数就行。这个图就是用了一下转置的方法,看起来会更容易对比点。主要看一下前4节比赛,第四节比赛的命中率会有较为明显的下降。
接下来球迷关心的内容,什么样的出手命中率最高。图中看出,跳投出手次数最多,其次是上篮,然后是扣篮等。命中率这块,扣篮当之无愧的第一,毕竟扣飞的概率是很小的,然后是打板球、上篮、勾手、跳投、补篮。
下面是具体的投篮姿势的出手次数,这里就不展开说明了,太多了,代码也和上面的一样,有兴趣的同学可以课下自行看看。
下面是各个赛季的出手次数,可以看出刚进联盟的科比也是和大部分新人一样,菜鸟赛季商场次数是有限的,然后逐渐增长,为什么2013年的出手的次数这么少,老球迷都知道,科比遭遇了职业生涯的最严重的伤病期,跟腱断裂,想想都痛心,笔者在这也祝各位打球的朋友远离伤病。
下面这个折线图展示的是科比各个赛季的命中率,生涯末期的命中率真是不忍直视了。
下面是科比历年每月的出手次数,有人可能要问,历年每月的出手的数据有什么意思,有这种疑问的可能都不经常看NBA,月份表示赛季的进程,比如从五月份已经是季候赛的阶段了,六月份更是分区决赛和总决赛的时间,然后就会进去休赛期,十月份因为是季前赛,各队主力球员一般出场时间都比较少。
下面显示的是各个月份的命中率,大家看一下就行了。没有太明显的变化。
下面表示各个位置的出手次数,结果和我们最开始的那个是一样的,中心区域的出手次数是最多的。
下面各区域的命中率,不再阐述了,和上面的是一样的。
还有个数据也挺重要,就是在主场的命中率是不是要比客场要高,通过统计确实要高点,主场优势确实存在。
下面是对抗各个球队的出手次数,没有显示全,一个屏幕不够大,截不了全图。
然后对抗个球队的命中率
最后收个尾,数据分析自己做得还很low(还是有自知之明的),但会一直在学习,fighting
因为是第一次在简书上发文章,好多细节做得不好,还请见谅。
网友评论