美文网首页数据分析成长之路
Udacity P3 Tableau 可视化

Udacity P3 Tableau 可视化

作者: 闪亮的日子hp | 来源:发表于2017-10-14 15:25 被阅读67次

项目背景

你是一名业务分析师顾问,你的客户是一个电影制作新公司,他们将制作一部新电影。客户想确保电影能成功,从而使新公司立足市场。他们希望你能帮助他们了解电影市场趋势,使他们能做出正确的决策。他们提供了指导,希望你能研究以下三大领域:

  • 问题 1: 电影类型是如何随着时间的推移发生变化的?
  • 问题 2: Universal Pictures 和 Paramount Pictures 之间的对比情况如何?
  • 问题 3: 改编电影和原创电影的对比情况如何?

清洗数据

1. 删掉不需要的数据

import pandas as pd
import numpy as np
movies_data = pd.read_csv('movies.csv')
movies_data.drop(['id', 'imdb_id', 'cast', 'homepage', 'director', 'tagline', 'overview', 'runtime', 'release_date', 'vote_count'], axis=1, inplace=True)

2. 去掉缺失值

# 统计缺失值
movies_data.isnull().sum()
popularity                 0
budget                     0
revenue                    0
original_title             0
keywords                1493
genres                    23
production_companies    1030
vote_average               0
release_year               0
budget_adj                 0
revenue_adj                0
dtype: int64
# 删掉含有缺失值的行
movies_data.dropna(inplace = True)

# 检查缺失值删除效果
movies_data.isnull().sum()
popularity              0
budget                  0
revenue                 0
original_title          0
keywords                0
genres                  0
production_companies    0
vote_average            0
release_year            0
budget_adj              0
revenue_adj             0
dtype: int64

3. 调整数据结构

注:原始数据中 genres, keywords, production_companies 结构如下。

可视化部分

参考资料

  1. https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.split.html
  2. https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reset_index.html
  3. https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Index.rename.html

相关文章

网友评论

    本文标题:Udacity P3 Tableau 可视化

    本文链接:https://www.haomeiwen.com/subject/zaoxuxtx.html