美文网首页生活不易 我用python
数据分析day2:dat表数据处理

数据分析day2:dat表数据处理

作者: james_chang | 来源:发表于2018-05-25 15:47 被阅读34次

    数据来自《利用python进行数据分析》附加数据文件,本篇使用电影评分数据

    读取三份数据
    这里传入的names值的是要使用的列名称的列表
    三个表的前5行
    要记住每一个都是DataFrame对象,不过三个表看起来太麻烦了,不如合成为一个表,这时就利用pandas的merge函数,先将ratings跟users合并,然后再将movies合并进去,merge函数会根据列名的重叠情况自动推断出哪些列是合并(或连接)键

    取出第一行
    原书中使用的ix(int)函数,但是这个函数已经弃用了,再使用会抛出警告,我就换了新的函数loc这里是基于标签索引还有一个基于位置索引的iloc 透视表
    pivot_table官方文档

    筛选出投票数大与250的,并作为索引生成新的DataFrame

    对女性观众的评分进行排序,这里出发了一个警告,sort_index已经弃用,所以我更换了新的方法sort_values

    接下来计算男女分歧比较大的电影,其实就是多加一列,计算出男女电影评分差,排序一下就可以了


    按照评分差排序

    反过来就是男性最喜欢的电影(相比较)


    女性最喜欢倒序之后

    这里利用切片的第三个参数步进为负数实现倒序

    转载请注明出处

    python自学技术互助扣扣群:670402334

    相关文章

      网友评论

      本文标题:数据分析day2:dat表数据处理

      本文链接:https://www.haomeiwen.com/subject/yvpyjftx.html