数据来自《利用python进行数据分析》附加数据文件,本篇使用电影评分数据
这里传入的names值的是要使用的列名称的列表
三个表的前5行
要记住每一个都是DataFrame对象,不过三个表看起来太麻烦了,不如合成为一个表,这时就利用pandas的merge函数,先将ratings跟users合并,然后再将movies合并进去,merge函数会根据列名的重叠情况自动推断出哪些列是合并(或连接)键
取出第一行
原书中使用的
ix(int)
函数,但是这个函数已经弃用了,再使用会抛出警告,我就换了新的函数loc
这里是基于标签索引还有一个基于位置索引的iloc
透视表
pivot_table官方文档
筛选出投票数大与250的,并作为索引生成新的DataFrame
对女性观众的评分进行排序,这里出发了一个警告,
sort_index
已经弃用,所以我更换了新的方法sort_values
接下来计算男女分歧比较大的电影,其实就是多加一列,计算出男女电影评分差,排序一下就可以了
按照评分差排序
反过来就是男性最喜欢的电影(相比较)
女性最喜欢倒序之后
这里利用切片的第三个参数步进为负数实现倒序
转载请注明出处
python自学技术互助扣扣群:670402334
网友评论